역량 기반, 시간 변동 의학교육시스템의 평가를 위한 강화된 요구조건 (Acad Med, 2018)
Enhanced Requirements for Assessment in a Competency-Based, Time-Variable Medical Education System
Larry D. Gruppen, PhD, Olle ten Cate, PhD, Lorelei A. Lingard, PhD, Pim W. Teunissen, MD, PhD, and Jennifer R. Kogan, MD 

 

 

역량 기반 의료 교육(CBME)은 교사, 학습자 및 규제 기관으로부터 상당한 관심을 받고 있다. 그것은 커리큘럼 디자이너, 교수 개발자, 임상의 교육자 및 프로그램 관리자의 인식과 관행을 변화시켰다. CBME는 평가에 특히 중요한 영향을 미친다. 
Competency-based medical education (CBME) has captured considerable attention from teachers, learners, and regulatory bodies. It has changed the perceptions and practices of curriculum designers, faculty developers, clinician educators, and program administrators. CBME has particularly significant implications for assessment.

2010년, 프랭크 등은 CBME를 "시간을 덜 강조하는 역량의 organizing framework를 사용하여, 의료 교육 프로그램의 설계, 구현, 평가 및 평가에 대한 성과 기반 접근법"으로 정의했다. 이 정의는 전통적인 교육 모델 간의 대비를 강조한다. 전통적 모델은 "고정 시간, 가변 결과"로 특징지을 수 있고, CBME는 "고정 결과, 가변 시간"으로 묘사될 수 있다. 품질 관리와 환자 안전의 표준을 보장하기 위해 고정된 결과가 필요하기 때문에, [시간 변동성]은 CBME에 논리적으로 함축되어 있다.개별 학습자는 다양한 준비와 기술을 가지고 의학 교육에 오고, 다양한 속도로 역량을 추구, 달성, 입증하기 때문에 재교육이나 가속이 필요하다. 근본적으로, CBME는 그 직업에 대한 [대중의 기대]를 충족시키기 위한 약속을 지키기 위한 접근법으로 볼 수 있다.
In 2010, Frank et al1,2 defined CBME as “an outcomes-based approach to the design, implementation, assessment, and evaluation of medical education programs, using an organizing framework of competencies” that “de-emphasizes time.” This definition highlights the contrast between traditional educational models, which can be characterized as “fixed time, variable outcomes,” and CBME, which can be described as “fixed outcomes, variable time.” Because fixed outcomes are necessary to ensure standards of quality care and patient safety, time variability is a logical implication of CBME when one recognizes that individual learners come to medical education with variable preparation and skills, pursue and attain competencies at different rates, and demonstrate their competence while possibly needing remediation or acceleration.3–5 Fundamentally, CBME can be seen as an approach to honor the commitment to meet public expectations of the profession.

이 기사에서는 평가에 대한 시간 변동성의 영향을 살펴볼 것이다. 평가는 대부분의 전통적인 프로그램보다 CBME 프로그램(특히 졸업후 과정)에서 훨씬 더 중요하다. 전통적인 프로그램은 훈련의 특정 기간이 역량으로 이어진다고 가정한다. 따라서 평가는 대체로 "안전 점검safety check"이다. 그러나 이러한 가정은 특정 결핍 영역과 개선이 필요한 부분을 식별하는 평가 데이터 자체에서 [정해진 기간 동안 역량을 획득하거나 확립하지 못한 개별 학습자 사례]가 확임됨에 따라 무너지고 있다. CBME 프로그램에서는, 이러한 가정을 하지 않기에, 학습자의 진행 궤적이 보다 개인화되고, 평가는 훈련 기간에서 결과적인 차이를 정당화해야 하는 상당한 부담을 져야 한다.
In this article, we will explore the implications of time variability for assessment. Assessment is even more important in CBME programs than in most traditional programs, particularly postgraduate ones. Traditional programs assume that a specified period in training will lead to competence; thus, assessment is largely a “safety check.” However, this assumption is crumbling under the weight of individual learner cases in which competence was not acquired in the set period of time and not established from the assessment data itself, which identify specific areas of deficiency and needed remediation. In CBME programs, which do not make this assumption, the learners’ progression trajectories are more individualized, and assessment must bear the significant burden of justifying consequential differences in length of training.

CBME의 평가 원칙
Principles of Assessment in CBME

CBME는 [시간을 상수가 아닌 변수]로 취급하기 때문에 학습자가 다음 교육 단계로 넘어갈 준비가 된 시점을 결정하는 대안적 방법이 필요하다. 이 방법은 역량 평가와 판단에 기초한다. 역량은 다음과 같이 정의됩니다.
Because CBME treats time as a variable rather than a constant, it requires an alternative method for deciding when a learner is prepared to move on to the next phase of education. This method is predicated on assessing and judging competence. Competence is defined as:

특정 상황에서 의사 수행의 여러 영역 또는 측면에 걸친 능력의 배열. 역량에 대한 진술은 관련 능력, 상황 및 훈련 단계를 정의하기 위한 서술적 자격자를 필요로 한다. 역량은 다차원적이고 역동적입니다. 그것은 시간, 경험, 그리고 환경에 따라 변한다.
the array of abilities across multiple domains or aspects of physician performance in a certain context. Statements about competence require descriptive qualifiers to define the relevant abilities, context, and stage of training. Competence is multi-dimensional and dynamic. It changes with time, experience, and setting.1

시간 변동성은 대부분의 기존 프로그램에 비해 더 크고 더 다양한 요구 사항인 평가 프로세스에 상당한 요구 사항을 부과한다. 우리는 이러한 요구에 대한 우리의 검토를 안내하기 위해 현대적인 평가 타당성 프레임워크를 사용할 것이다.
Time variability places considerable demands on the assessment process, demands that are both larger and more varied than is typical for most traditional programs. We will use a modern assessment validity framework5–7 to guide our examination of these demands.

한 가지 핵심 원칙은 [평가는 항상 우리가 판단하려는 목표target, 즉 구인construct을 가지고 있다]는 것입니다. 구인construct은 무형이며, 교육, 성과, 판단 등에 대한 우리의 이론에 기초한다. 의학에서 평가를 위한 일반적인 구인은 지식, 전문성, 의사소통, 팀워크, 그리고 많은 다른 것들이 있다. CBME는 역량이 우리가 판단하고 데이터를 수집해야 하는 핵심 구조라고 가정한다.
A key principle is that assessment always has a target, a construct about which we are trying to make a judgment. Constructs are intangible and based on our theories of education, performance, judgment, etc.8 Common constructs for assessment in medicine are knowledge, professionalism, communication, teamwork, and numerous others. CBME posits that competencies are the key constructs about which we need to make judgments and for which we need to gather data.


두 번째 핵심 원칙은 [평가 데이터와 그 데이터로부터 이루어지는 평가 판단 사이의 구별]이다. 객관식 지식 테스트에서 평가 데이터(점수)는 종종 평가 판단 및 결정(합격/실패, 교정조치, 표창)과 구별된다. 대조적으로, 임상 분야에서 [평가 데이터에 기반한 평가 판단]은 덜 명확해질 수 있다. 교수진 관찰자는 성과를 평가할 때 종종 평가 데이터의 출처이다. 학습자의 코치 또는 옹호자, 그리고 이러한 데이터를 사용하는 심판은 학습자가 유능한지 여부(즉, 이정표를 달성했고, 진급할 수 있다 등)를 결정한다. 측정 도구(양식, 점검표)는 이러한 판단에 대한 데이터를 제공할 뿐이며, 목적 자체가 아니라 이 더 큰 목적을 위한 수단일 뿐이다.
A second key principle is the distinction between assessment data and the assessment judgments that are made from those data. In a multiple-choice test of knowledge, assessment data (the scores) are often distinct from the assessment judgments and decisions (pass/fail, remediation, commendation). In contrast, assessment judgments based on assessment data in the clinical arena can become less obvious. The faculty observer is often the source of the assessment data when evaluating performance; the coach or advocate of the learner and the judge making use of those data decide whether the learner is competent—that is, has achieved a milestone, can progress, etc.9 The measurement tool (form, checklist) merely provides data for these judgments and is only a means to this greater end, not the end itself.

세 번째 핵심 원칙은 [판단의 결과consequence]인 [결정]에 관한 것이다. 일반적인 교육 테스트 환경에서, 이 결정은 학생들의 진도나 졸업장을 받는 것과 관련이 있다. 임상 교육에서, [평가에 따른 결정]은 피드백이나 환자 치료에서 [더 적은 감독 하에 의료행위를 할 수 있는 허가(즉, 학습자가 특정 감독 수준에서 행동하도록 위임받을 수 있는 결정)]를 초래할 수도 있다. 평가 결정은 다음과 같을 수 있다.

  • 총괄적 또는 고부담적 결정(예: 졸업) 또는 
  • 형성적 또는 저부담된 결정(예: 학습자가 자신의 학습을 지도하는 데 사용할 수 있는 성과 피드백).

A third key principle regards the decision that is the consequence of the judgment. In usual educational testing settings, this decision pertains to student progress or to receiving a diploma. In clinical education, the decision resulting from an assessment may also result in feedback or the permission to act with less supervision in patient care (i.e., to a decision that a learner can be entrusted to act at a specified level of supervision).10 Assessment decisions may be

  • summative or high-stakes decisions (e.g., graduation) or
  • formative, low-stakes decisions (e.g., performance feedback that a learner may use to guide her or his own learning).

평가 데이터 수집에 대한 영향
Implications for Gathering Assessment Data

평가 작업
Assessment tasks

역량을 직접 평가할 수 없기 때문에, 우리는 어떤 방식으로든 관찰하고 측정할 수 있는 행동을 생성하는 [구인 관련 작업이나 활동]을 정의해야 한다. 이러한 작업은 (지식 테스트 설문에서) 질문에 대답하는 것만큼 간단하거나 환자 및 그녀의 가족과 완화 치료에 대해 논의하는 것만큼 복잡할 수 있다. 이러한 [작업의 선택]은 우리의 평가 판단의 타당성에 심오한 결과를 초래한다. 좋은 평가 판단에는 다양한 평가 방법을 사용하는 관련 직무의 다양한 데이터 소스가 필요하다. 평가 절차의 신중한 청사진은 평가 판단의 질을 향상시킬 것이다.
Because we cannot assess competencies directly, we must define construct-relevant tasks or activities that produce behaviors that we can observe and measure in some way. These tasks can be as simple as answering a question (in a survey of knowledge test) or as complex as discussing palliative care with a patient and her family. The selection of these tasks has profound consequences for the validity of our assessment judgments. Good assessment judgments require multiple sources of data from a range of relevant tasks that use a variety of assessment methods.9 Thoughtful blueprinting of assessment procedures will improve the quality of assessment judgments.

전문가의 의견이 항상 일치하는 것은 아니지만, 임상 교육생에 대한 타당한 평가 결정을 내리는 데 점점 더 가치가 있고 심지어 필요한 것으로 간주되고 있다. 이러한 의견은 개별 임상의(평가자)가 진정한 작업 환경에서 훈련생과 상호작용하고 신뢰를 얻는 방법에 대한 평가 데이터 수집의 조정이 필요하다. 이것은 부분적으로 위탁 의사 결정과 관련된 새로운 조사 영역이다. 
Despite the fact that expert opinions do not always agree, they are increasingly considered valuable and even necessary to arrive at valid assessment decisions regarding clinical trainees.11,12 Such opinions require the alignment of assessment data gathering with how individual clinicians (as assessors) interact with and gain trust in trainees in the authentic work environment.13,14 This is a new domain of investigation15 related in part to entrustment decision making.16–18

평가 혁신
Innovation in assessment

CBME 프로그램은 [데이터를 통합하고 사용하기 위한 평가 방법과 절차에 대한 혁신과 실험을 안내하는 평가 전문성]이 필요하다. CBME의 완전한 약속이 실현되려면 평가, 데이터 분석, 정보 관리, 의사결정 지원 분야의 전문성을 개발하거나 채용해야 할 것이다. CBME는 우리가 임상 성과에 대한 수시적이고 미리 예정된 필기 또는 수행 검사와 단편적인 교수진 평가에 계속 의존한다면 실행 가능하지 않을 것이다. 이는 결국 전반적인 예산 제약에 직면하여 자원 재분배가 필요할 것이다.
CBME programs will need assessment expertise to guide innovation and experimentation in assessment methods and procedures for integrating and using the data. It will become necessary to develop or recruit expertise in assessment, data analytics, information management, and decision support if the full promise of CBME is to be realized. CBME will not be viable if we continue to depend on occasional, prescheduled written or performance examinations and fragmentary faculty evaluations of clinical performance. This will, in turn, require resource reallocation, often in the face of overall budgetary constraints.

우리가 확립되고 혁신적인 [다양한 평가 방법을 개발하고 사용하기로 약속]한다면, CBME는 현재 무시되고 있는 자연스럽게 발생하는 평가 데이터를 활용할 수 있다. 다음을 포함한다.

  • 학습자 제품(예: 전자 건강 기록의 항목) 
  • 팀 기반 성과(예: 멀티소스 피드백 기반) 
  • 관리 데이터(예: 사전 자격 및 시험, 수행된 활동) 
  • 교수진 판단(예: mini-CEX, 기타 관찰, 사례 기반 논의) 
  • 현재 높은 수준의 종합 평가 결정을 위한 "충분히 좋은" 것으로 간주되지 않을 수 있는 다른 평가 기회. 

단일 관측 사건은 높은 심리 측정 기준을 요구하지만, 각각 표준화되거나 신뢰성 있게 재현할 수 없는 여러 측정 조합으로 일반화 가능한 결과를 산출할 수 있다. 원칙적으로, 신뢰할 수 있는 전문 활동(EPA)의 개념은 이 점을 보여준다. 자연적으로 발생하는 과제(예: 건강 유지 검사를 위한 위험 요소 평가 수행)로서 EPA는 지침과 평가 과제의 단위 또는 초점일 수 있다.
If we commit to developing and using a variety of established and innovative assessment methods, CBME can take advantage of naturally occurring assessment data that are presently neglected. These include

  • learner products (e.g., entries in an electronic health record),
  • team-based performance (e.g., based on multisource feedback),
  • administrative data (e.g., prior qualifications and tests, activities performed),
  • faculty judgments (e.g., mini-CEX, other observations, case-based discussions), and
  • other assessment opportunities that may not be presently thought of as “good enough” for high-stakes, summative assessment decisions.9 

While single observation events require high psychometric standards, multiple measures in combination, each of which may not be standardized or reliably reproducible, may yield generalizable results.19 In principle, the notion of the entrustable professional activity (EPA)20 illustrates this point. As a naturally occurring task (e.g., conducting a risk factor assessment for a health maintenance examination), an EPA can be both a unit or focus of instruction and an assessment task.

[환자 결과]는 [역량 결정]에 통합될 수 있고, [환자 경험 향상, 인구 건강 개선, 비용 절감]이라는 3중 목표를 해결하고자 하는 [평가의 유효성]을 향상시키는 매우 중요한 다른 평가 데이터 소스를 제공한다. 그러나 [환자 결과를 교육 활동과 연결하는 것]은 매우 복잡합니다. 이러한 데이터를 수집하고, 결과에 대한 교육생의 기여를 이해하고, 이러한 데이터가 개인에 대한 역량 결정에 어떻게 정보를 제공해야 하는지 확립하는 것은 CBME의 연구 의제의 일부로 남아 있다.
Patient outcomes offer other, critically important sources of assessment data that can be incorporated into competency decisions21 and enhance the validity of assessments that seek to address the triple aim of enhancing the patient experience, improving population health, and reducing costs.22 However, linking patient outcomes to educational activities is extremely complex.23–26 Gathering such data, understanding trainees’ contributions to the outcomes, and establishing how these data should inform competency decisions about individuals remain part of the research agenda for CBME.27

평가의 시간 유연성
Time flexibility in assessment

CBME [학습 과정]에서 시간이 고정된 양이 아니라면, [평가]에서도 시간이 고정될 수 없다. 역량 판단이 언제든지 이루어질 수 있기 때문에, 평가 데이터는 그러한 판단에 사용할 수 있어야 하며, 따라서 (거의) 지속적으로 수집되어야 한다. 특히 학습자에게 피드백을 제공하는 데 있어 평가 데이터의 형태적 용도는 공연의 설정 및 시간과 밀접하게 연계되어야 한다. 형성적 피드백은 교사와 학습자 사이의 대화를 필요로 하며, 따라서 이러한 대화와 관련된 평가를 필요로 한다. 이러한 평가는 교수진에게 시간이 많이 소요되며 CBME를 구현하기 위한 상당한 잠재적 비용을 구성한다.
If time is not a fixed quantity in the CBME learning process, it also cannot be fixed in assessment. Because competency judgments can be made at any time, assessment data need to be available for those judgments and thus gathered (more or less) continuously. In particular, the formative uses of assessment data in providing feedback to learners need to be linked closely to the setting and time of the performance. Formative feedback requires a dialogue between teacher and learner28 and, thus, assessments that are tied to those dialogues. Such assessments are time consuming for faculty and constitute a significant potential cost for implementing CBME.

또한 [시간-유연 평가]는 특히 개별화된 학습 순서나 계획을 추구하면서 [다수의 학습자에 대한 공식 평가(예: 졸업에 필요한 객관적인 구조화된 임상 검사)]를 계획하는 데 있어 [행정 및 물류 리소스]에 상당한 요구를 부과한다. 유연하고 지속적인 평가는 특히 고위험 평가의 엄격한 스케줄링을 수용하기 어렵다. CBME가 요구하는 평가 유연성의 향상은 관련 심사 기관의 중요한 조직 변경을 필요로 할 것이다. 그러나 시간 변동성은 그러한 측면에서 유익할 수도 있다. 교육 모듈의 고정된 길이로 인해, 짧은 시간 내에 여러 학습자를 평가해야 하는 상당한 압력이 있는 반면, 가변적인 길이는 시간이 지남에 따라 평가 노력을 더 고르게 분산시킬 수 있다.
Time-flexible assessment also imposes considerable demands on administrative and logistical resources, particularly in trying to schedule formal assessments (e.g., objective structured clinical examinations required for graduation) for large numbers of learners who are pursuing individual learning sequences or plans. Flexible and continuous assessment is particularly difficult to accommodate with the rigid scheduling of high-stakes assessment. The increased assessment flexibility required by CBME will necessitate significant organizational changes in the relevant examination bodies. However, time variability may also be beneficial in that respect. With the fixed length of training modules, there is significant pressure to evaluate multiple learners in a short period of time, whereas variable length could spread assessment effort more evenly over time.29

평가 데이터 관리
Managing assessment data

CBME 평가에는 더 자주 수집되고 가변적인 일정에 따라 수집되는 [여러 소스의 데이터]가 필요하기 때문에, 일반적인 기존 평가 시스템보다 더 높은 수준의 데이터 공유, 관리 및 통신이 필요합니다. 프로그램 내 및 프로그램 간에 교육생의 평가 데이터를 전달하는 물류 및 윤리는 아직 많은 관심을 받지 못한 필수 과제입니다. 성과 및 평가 데이터의 전자 포트폴리오가 솔루션의 일부일 수 있지만, 표준화가 부족하여 기관마다 상당히 가변적입니다. 학습 분석은 이러한 데이터 관리 및 분석을 지원하는 역할을 할 수 있으며, 모바일 기술은 임상 활동의 자연스러운 과정에서 데이터 수집에 사용될 수 있다. 웜 등은 36만 개의 데이터 포인트로 3년 동안 약 200명의 내과 레지던트들을 추적할 수 있는 가능성을 입증했다. CBME는 30년 이상의 전문 실무 및 학습에 걸쳐 프로그램 및 이해관계자(학습자 포함) 간에 역량 평가 정보를 해석하고 공유하기 위한 시스템을 다루어야 한다.
Because CBME assessment requires data from multiple sources that are gathered more frequently and on variable schedules, it requires a greater level of data sharing, management, and communication than is typical of more traditional assessment systems.30 The logistics and the ethics of communicating a trainee’s assessment data within and across programs is a necessary challenge that has not yet received a great deal of attention.31–33 Electronic portfolios of performance and assessment data may be part of the solution, but they lack standardization, being quite variable from one institution to the next. Learning analytics may serve to support such data management and analysis,34 and mobile technology may be used for the collection of data in the natural course of clinical activities. Warm et al35 demonstrated the feasibility of tracking almost 200 internal medicine residents over three years with 360,000 data points. CBME will need to address systems for interpreting and sharing competency assessment information across programs and stakeholders (including learners) that may span more than 30 years of professional practice and learning.

맥락 특이성
Context specificity

맥락 특이성은 [실제 실행 중에 발생하는 복잡한 수행능력에 대한 모든 평가의 문제]이다. 널리 알려진 사실 중 하나는 [하나의 설정, 상황 또는 사례]에서 성과를 평가하는 것이, [유사한 사례]에서도 성과를 완벽하게 예측하지 못한다는 것이다. 맥락 특이성은 의미 있고 신뢰할 수 있는 성능 추정치를 얻기 위해 다양한 맥락에서 여러 사례에 대해 여러 관찰자에 의해 여러 평가가 수행되어야 한다. 전자 포트폴리오와 모바일 기술은 다양한 맥락에서 진행 상황에 대한 피드백, 형성적 평가 및 종합적 결정을 제공하기 위해 직장에서의 자연스러운 만남을 포착하는 데 도움이 될 수 있다. 
Context specificity is a problem for all assessments of complex performance that take place during real-world practice. A pervasive finding is that an assessment of performance in one setting, situation, or case does not perfectly predict performance in even a similar case. Context specificity requires that multiple assessments be done by multiple observers over multiple cases in a variety of contexts to obtain a meaningful and trustworthy estimate of performance. E-portfolios and mobile technology could help capture natural encounters in the workplace to provide feedback, formative assessment, and summative decisions regarding progress in various contexts.36

[맥락 특이성]에 더하여, 평가 데이터는 전문적 정체성 형성과 같이 [쉽게 정의할 수 없는 역량의 "암묵적" 구성요소]의 존재에 의해 제한될 수 있다. 이러한 결정을 지원하는 데 있어 [평가의 본질적인 불확실성과 부정확성]을 잊어서는 안 된다.
Along with context specificity, assessment data may be limited by the existence of “implicit” components of competence that may not be easily definable, such as professional identity formation. The inherent uncertainty and imprecision of assessment in aiding these decisions must not be forgotten.

평가 판단에 미치는 영향
Implications for Making Assessment Judgments

형성적 및 종합적 판단
Formative and summative judgments

평가 판단의 범위는 학습자와 교육 시스템에 미치는 영향이다.

  • [고부담(총괄) 판단]에는 과정 합격 또는 불합격, 학습자 졸업 또는 유지, 교육과정 변경에 대한 투자, 역량에 대한 결정이 포함된다.
  • [저부담(형성) 판단]에는 학생 자기조절 학습을 안내하기 위한 피드백, 많은 이러닝 모듈에 포함된 것과 같은 자체 테스트, 진행 테스트 등이 포함된다.

Assessment judgments range in the impact they have on the learner and the educational systems.

  • High-stakes (summative) judgments include decisions about passing or failing a course, graduating or retaining a learner, investment in curricular changes, and decisions about competence.
  • Low-stakes (formative) judgments include feedback to guide student self-regulated learning, self-testing such as is included in many e-learning modules, and progress testing.37

CBME에서, 형성적 결정과 종합적 결정은 동일한 스펙트럼의 다른 끝으로 볼 수 있다.

  • 훈련 초기에는 격차를 해소하고 강점을 강조하는 방법에 대한 [형성적 지침]을 제공할 목적으로 평가될 수 있다.
  • 보다 상급 학습자는 자신의 진행 또는 교정과 관련된 종합적인 결정을 위해 동일한 방법으로 평가될 수 있다.

중요한 것은, 동일한 평가 데이터가 형성적 또는 요약적 판단에 사용될 수 있다는 것이다.—평가 활동 자체는 형성적이거나 종합적이지 않습니다. 그러나 종합적 판단과 결정에는 일반적으로 형성적 판단보다 더 많은 양의 고품질 평가 데이터가 필요하다.
In CBME, formative and summative decisions can be viewed as different ends of the same spectrum.

  • A learner early in her training may be assessed for the purpose of providing formative guidance on how to address gaps and accentuate strengths.
  • A more advanced learner may be assessed with the same method for a summative decision related to his progression or remediation.

Importantly, the same assessment data can be used for either formative or summative judgments—an assessment activity, per se, is neither formative nor summative. However, summative judgments and decisions generally require greater amounts of higher-quality assessment data than do formative judgments.

프로그램적 평가 문헌에서, 각각 개별적으로 학습을 자극하는 역할을 하는 일련의 형성적 평가는 함께 종합 결정(또는 학습 평가라고 불리는 것)을 내리는 역할을 할 수 있다. 마찬가지로, 위탁 결정은 보건의료 업무에서 교육 목적을 위한 학습자에 대한 임시 평가의 일부와 보건의료 업무 인증에 대한 요약 결정의 일부로 식별되었다. 

In the programmatic assessment literature, a series of formative assessments, each of which separately serves to stimulate learning (an approach labeled assessment for learning), together may serve to make summative decisions (or what is called assessment of learning).38 Similarly, entrustment decisions have been identified as part of ad hoc assessments about learners for training purposes in health care tasks and as part of summative decisions about certification for health care tasks.10,20

평가기준 및 기준
Assessment standards and criteria

[총괄적 판단]은 확실한 평가 데이터뿐만 아니라, [결정을 정의하는 성과에 대한 표준이나 기준(유능한 것과 그렇지 않은 것)]도 필요로 한다. 이러한 표준은 정량적이며 Angoff 또는 Hofstee 방법과 같은 공식적인 그룹 판단 절차에 의해 도출될 수 있으며, 또는 정성적일 수 있으며 필요한 감독 또는 이정표 달성에 기초하여 주어진 성과 수준을 설명할 수 있다. CBME에서 식별되는 [복잡한 역량]은 [전통적인 표준화된 심리 측정법]에 쉽게 의존하지 않기 때문에, 교수진의 "주관적" 판단을 체계화하는 데 상당한 노력이 기울여졌다. 이러한 노력에는 등급 척도에 대한 행동 앵커, "유능한" 성과에 대한 상세한 설명, 이정표와 같은 공통 기준의 교직원 개발을 포함한다. 슈워트 등은 또한 심리측정학 이론에 따르면 신뢰할 수 없는 것처럼 보이지만, 개별 교수 평가자의 다중 "주관적" 평가가 학습자에게 다중적이고 의미 있는 관점에 기여할 수 있다고 강조했다.
Summative judgments require not only solid assessment data but also a standard or criterion for performance that defines the decision (competent vs. not competent). These standards may be quantitative and derived by formal group judgment procedures, such as Angoff or Hofstee methods,39 or they may be qualitative and describe a given performance level based on needed supervision or milestone achievement.40 The complex competencies identified by CBME do not readily lend themselves to traditional standardized psychometrics, so considerable effort has been devoted to systematizing more “subjective” judgments (whether qualitative or quantitative) on the part of faculty. These efforts include behavioral anchors for ratings scales, detailed descriptions of what “competent” performance looks like, and faculty development to calibrate faculty to a common set of criteria, such as milestones.41 Schuwirth et al12,30,42 also have emphasized that multiple “subjective” assessments from individual faculty raters may contribute multiple, meaningful perspectives on a learner, in spite of appearing unreliable according to psychometric theory.

EPA 및 위탁 결정
EPAs and entrustment decisions

CBME를 구현하기 위한 논리적 필수는 아니지만, EPA는 많은 CBME 시스템의 핵심 측면으로 부상했다. EPA는 학습자가 적절한 성과를 입증한 후 감독되지 않은 실행을 위해 학습자에게 위임하는 전문 관행의 단위로 정의되어 왔다. EPA의 주요 특징 중 하나는 전문직의 진정한 일상 업무와 이러한 업무를 완료하는 학습자의 성과를 관찰하고 평가할 수 있는 기회 사이의 연결이다.
Although not a logical necessity for implementing CBME, EPAs have emerged as a key aspect of many CBME systems. EPAs have been defined as units of professional practice to be entrusted to learners for unsupervised execution once they have demonstrated adequate performance.43 One of the key features of EPAs is the link between authentic, often-everyday tasks of a profession and the opportunities to observe and assess learners’ performance completing those tasks.

EPA 개념의 핵심 요소는 위임이다. 위임을 위해서는 교수진과 평가자가 학습자의 성과와 평가자의 기대 및 과제/EPA의 성격을 통합하는 판단을 내려야 한다. 중요한 전문적 기준의 맥락에서 평가자의 전반적인 판단을 포착하기 때문에 [매우 실용적인 가치(학습자가 이 과제를 독립적으로 수행할 수 있을 정도로 "신뢰할 만trustworthy"합니까?)]가 있고, 판단은 학습자가 필요로 하는 감독량의 추정에 기초한다.
A key component of the EPA concept is entrustment. Entrustment requires that faculty and assessors make a judgment that integrates learner performance with assessor expectations and the nature of the task/EPA. It has enormous practical value because it captures the assessor’s overall judgment in the context of an important professional criterion—Is the learner “trustworthy” to do this task independently?—and the judgment is based on an estimation of the amount of supervision the learner requires.

[과제를 독립적으로 수행하기 위한 학습자의 위임]은 교육 프로그램을 위해 식별된 각 EPA의 목표가 될 수도 있고 아닐 수도 있다. 기대에 따라 일부 EPA는 프로그램이 끝날 때까지 완전히 숙달되지 않을 수 있다. 그러나 CBME 프레임워크 하에서 개별 학습자는 특정 기술, 동기 부여 또는 학습 기회 때문에 프로그램이 끝나기 훨씬 전에 "감독되지 않은 연습"의 완전한 위탁에 대한 충분한 숙달에 도달할 수 있다.
Entrustment of a learner to perform a task independently may or may not be the goal for each EPA identified for an educational program. Depending on expectations, some EPAs may not be fully mastered by the end of the program. However, under a CBME framework, individual learners may exceed program expectations and attain sufficient mastery for full entrustment of “unsupervised practice” long before the end of the program because of particular skills, motivation, or learning opportunities.

EPA는 [학습자가 책임을 질 준비가 되는 즉시 책임을 부여하기 위한 프레임워크]를 제공한다. 선행 학습과 학습 경험의 순서 차이 때문에, 모든 학습자가 동일한 속도로 목표 역량을 획득하는 것은 아닙니다. 따라서 EPA 마스터에 필요한 시간의 변화는 개별화된 훈련 경로를 필요로 할 수 있다. 개별 EPA 마스터링의 시간 변동성이 전체 프로그램 시간의 변동성에 반드시 기여하는 것은 아니다. 개별 학습자가 마스터해야 하는 EPA의 가변 개수는 전체 프로그램 시간에도 영향을 미칠 수 있다.
EPAs provide a framework for granting responsibility as soon as learners are ready for it. Not all learners will attain the targeted competencies at the same rate because of prior learning and differences in sequencing of learning experiences. Therefore, variation in the time required to master EPAs may require individualized training pathways.44 Time variability in mastering individual EPAs is not necessarily the only contribution to variability in total program time; the variable number of EPAs that need to be mastered by an individual learner also may affect the total program time.

위탁 결정은 평가 결과로서 이분법적(위탁 대 비위탁)이거나 평가를 위한 개발 프레임워크를 수용하기 위해 증분적incremental일 수 있다. 서로 다른 수준의 위탁은 다음과 같이 서로 다른 수준의 독립성 또는 감독을 반영할 수 있다. 

  • 관찰만 가능
  • 직접 감독(실내)과 함께 EPA에 참여 
  • 간접 감독(실내에서는 아니지만 신속하게 이용 가능)으로 참여
  • 원격 감시를 빨리 할 수 없는 상황에서 참여

Entrustment decisions, as an assessment outcome, can be dichotomous (entrusted vs. not entrusted) or incremental to accommodate a development framework for assessment. Different levels of entrustment may reflect different levels of independence or supervision, such as

  • the learner observing only,
  • participating in the EPA with direct supervision (in the room),
  • participating with indirect supervision (not in the room but quickly available), and
  • with distant supervision not quickly available.45

평가의 목적이 임상 실무에서 EPA에 대한 위탁 결정을 내리는 것으로 정의되고, 이 평가의 규모가 학습자가 요구하는 감독 양으로 프레임화되는 경우, 평가 도구를 만들 수 있다. 초기 연구는 이러한 구성 정렬 접근법이 유리한 타당성 증거를 보여준다는 것을 발견했다. 그러나 덜 집중적인less intensive 감독을 위한 교수 관찰자의 기준에서 개인의 차이를 인정하는 것이 중요하다. [교수 판단자faculty judges의 변동성]은 이러한 위탁 판단의 [타당성에 대한 위협]이다.
If the purpose of assessment is defined as making entrustment decisions for EPAs in clinical practice and the scale of this assessment is framed as the amount of supervision the learner requires, assessment instruments can be created. Early studies have found that these construct-aligned approaches13 show favorable validity evidence.14,46,47 However, it is important to acknowledge individual differences in faculty observers’ criteria for less intensive supervision. Variability among faculty judges is a threat to the validity of these entrustment judgments.

전환 및 개별 계획
Transitions and individual plans

교수진과 연구자는 의학 교육에서 한 단계에서 다른 단계로 전환하고 있는 학습자가 [준비 상태가 적절한지 확인하는 것]이 일반적입니다. 학부생에서 대학원생으로, 대학원생에서 펠로우십 프로그램으로, 또는 감독되지 않은 실습으로. 이러한 [준비의 격차gaps in preparation]는 의대생들의 인턴십 전환을 위한 준비를 돕기 위한 부트캠프 등 다양한 대응으로 이어지고 있다. 비슷하게, 많은 레지던트 프로그램들은 처음에 몰입 경험을 가지고 있다. CBME 평가는 성과에 대한 더 명확한 기대치와 학습자의 강점과 약점에 대한 더 나은 데이터를 제공하여, [교정 및 조기 학습 계획]이 그룹 전체에 대한 필요성보다는, [개별적인 필요에 맞게 조정]될 수 있도록 함으로써 이러한 노력에 도움이 될 수 있다.
It is common for faculty and researchers to identify inadequate preparation in learners who are transitioning from one phase to another in medical education: from undergraduate to graduate education,48,49 from graduate to fellowship programs,50 or into unsupervised practice.51 These gaps in preparation have led to a variety of responses, including boot camps to help prepare medical students for the transition to internship.52 Similarly, many residency programs have immersion experiences at their beginning. CBME assessments could aid these efforts by providing clearer expectations of performance and better data on learners’ strengths and weaknesses so that remediation and early learning plans could be adapted to individual needs, rather than to the perceived needs of the group as a whole.

평가 판단을 위한 시스템
Systems for making assessment judgments

임상 역량 위원회(CCC 또는 위탁 위원회)는 평가 결정을 위해 교수진이 협력하는 방법에 대한 혁신의 예를 제공한다. 이러한 위원회는 정의된 역량에 따라 조직된 다양한 출처와 시간으로부터 평가 데이터를 수집, 검토 및 합성한다. CCC는 이러한 평가 데이터를 사용하여 프로그램을 통해 신뢰와 진행에 대한 결정의 위험과 이익을 균형 있게 조정하면서, 각 학생의 역량에 대한 평가 판단을 내린다. 많은 CCC가 위험에 처한 훈련생 식별에 집중하는 경향이 있지만, 이러한 의사 결정 구조와 과정은 가속 학습과 조기 졸업에 관한 의사 결정에도 가능성을 가지고 있다. CBME에 특히 중요한 것은 CCC 구조가 진정으로 시간 가변적인 교육 프로세스의 구현을 지원할 것이고 지원해야 한다는 것이다.

Clinical competency committees (CCCs or entrustment committees) provide an example of innovation in how faculty collaborate around making assessment decisions.53,54 These committees collect, review, and synthesize assessment data from various sources and times, organized around defined competencies. The CCC takes these assessment data and uses them to make assessment judgments about the competence of each student, balancing the risks and benefits of the decisions about trust and progression through the program.18 Although many CCCs tend to focus on identifying at-risk trainees,53 this decision-making structure and process holds promise for making decisions regarding accelerated learning and early graduation as well.55 Of particular importance to CBME, the CCC structure would and should support the implementation of a truly time-variable education process.

결론
Conclusion

학습 성과에 대한 평가는 항상 모든 의료 교육 수준에서 필수적이지만 역량 기반 시간 가변 교육은 전통적인 요구 사항을 초과하는 평가 품질, 빈도, 목적 및 관리에 특별한 요구를 둔다. CBME 프로그램이 증가하고 성숙해짐에 따라 평가 방법 및 시스템에 대한 시간, 돈 및 인재의 투자도 증가할 것입니다. 우리는 의료 교육이 학습자, 환자 및 사회에 대한 교육 약속을 문서화할 수 있는 의무를 이행하기로 약속함에 따라 평가 분야가 향후 수십 년 동안 역동적인 혁신 영역이 될 것으로 예상한다.
The assessment of learning outcomes has always been essential to all levels of medical education, but competency-based, time-variable education places particular demands on assessment quality, frequency, purpose, and management that exceed the traditional requirements. As CBME programs multiply and mature, the investment of time, money, and talent into assessment methods and systems will also grow. We envision that the field of assessment will be a dynamic area of innovation over the next several decades as medical education commits to meeting the obligations of being able to document its educational promises to learners, to patients, and to society.

 


Acad Med. 2018 Mar;93(3S Competency-Based, Time-Variable Education in the Health Professions):S17-S21. doi: 10.1097/ACM.0000000000002066.

Enhanced Requirements for Assessment in a Competency-Based, Time-Variable Medical Education System

Affiliations collapse

Affiliation

1L.D. Gruppen is professor, Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, Michigan. O. ten Cate is professor of medical education, Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, the Netherlands. L.A. Lingard is professor, Department of Medicine, and director, Centre for Education Research & Innovation, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. P.W. Teunissen is professor, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands, and maternal fetal medicine specialist, VU University Medical Center, Amsterdam, the Netherlands. J.R. Kogan is professor of medicine, Department of Medicine, Perelman School of Medicine at the University of Pennsylvania, Philadelphia, Pennsylvania.

PMID: 29485482

DOI: 10.1097/ACM.0000000000002066

Abstract

Competency-based, time-variable medical education has reshaped the perceptions and practices of teachers, curriculum designers, faculty developers, clinician educators, and program administrators. This increasingly popular approach highlights the fact that learning among different individuals varies in duration, foundation, and goal. Time variability places particular demands on the assessment data that are so necessary for making decisions about learner progress. These decisions may be formative (e.g., feedback for improvement) or summative (e.g., decisions about advancing a student). This article identifies challenges to collecting assessment data and to making assessment decisions in a time-variable system. These challenges include managing assessment data, defining and making valid assessment decisions, innovating in assessment, and modeling the considerable complexity of assessment in real-world settings and richly interconnected social systems. There are hopeful signs of creativity in assessment both from researchers and practitioners, but the transition from a traditional to a competency-based medical education system will likely continue to create much controversy and offer opportunities for originality and innovation in assessment.

검은 백조를 찾아서: 의사국가시험 불합격 위험 학생 식별 (Acad Med, 2017)
In Search of Black Swans: Identifying Students at Risk of Failing Licensing Examinations
Cassandra Barber, MA, Robert Hammond, MD, FRCPC, Lorne Gula, MD, FRCPC, Gary Tithecott, MD, FRCPC, and Saad Chahine, PhD 

 

 

[모든 학부 의학교육 프로그램이 안고 있는 끊임없는 어려움]은 의학 공부에 잘 적응하고 역량을 발휘할 수 있도록 성숙할 학습자를 선발하는 것이다. 그러한 학습자를 식별하기 위한 많은 방법이 존재하지만, 우리의 문헌 검색은 학생들의 결과를 예측할 수 있는 것으로 인용되지 않는다는 것을 밝혔다. 이러한 [신뢰할 수 있는 예측 도구의 부족]은 의대생 선발의 과학을 이해하기 어렵게 만든다. 프로그램과 교육자가 모든 학습자를 지원하는 데 전념하고 있지만, 조기 개입을 안정적으로 허용하는 방법은 프로그램이 자원을 재집중하고 개별 학생 결과를 개선하는 데 도움이 될 수 있다. 따라서 의대생 선발에서 의사 결정을 위한 수학적 예측 모델의 통합은 입학 및 의대 중 더 계산되고 정보에 입각한 결정을 가능하게 할 수 있다. 따라서 본 논문은 캐나다 국가 면허 시험에서 학습자의 실패 위험을 예측하기 위해 다단계 모델링의 사용을 탐구한다. 즉, 캐나다 의학 위원회 자격 시험 파트 1(MCCQE1).
A constant struggle all undergraduate medical education programs grapple with is selecting learners who will adapt well to medical studies and mature to achieve competency. While many methods exist to identify such learners, our search of the literature revealed that none are cited as being able to predict student outcomes. This lack of reliable predictive tools makes the science of medical student selection elusive. While programs and educators are committed to supporting all learners, a method that would reliably allow for early intervention could help programs refocus their resources and improve individual student outcomes. Thus, the integration of mathematical models of prediction for decision making in medical student selection may allow for more calculated and informed decisions at admissions and during medical school. This paper, therefore, explores the use of multilevel modeling to predict learners’ risk of failure on the Canadian national licensing examination—the Medical Council of Canada Qualifying Examination Part 1 (MCCQE1).

배경
Background

면허시험 점수를 예측하기 위해 상당한 연구가 진행되어 왔다. 이러한 연구는 주로 의과대학입학시험(MCAT) 점수, 학부 학점평균점수(GPA) 등 예비입학변수가 향후 학업성취도에 미치는 예측 타당성에 초점을 맞추었다. 그러나 [MCAT 점수와 학부 GPA의 예측력]은 [학생들이 졸업을 향해 나아가고, 학습이 인지적 측정에서 보다 임상적 측정으로 변화함]에 따라 점차 감소한다는 것이 잘 문서화되어 있다. 결과적으로, 많은 면허시험이 졸업에 가까워질 때까지 이루어지지 않기 때문에 의대생의 미래성과를 예측하는 데 사용될 때 이러한 변수들의 신뢰성은 불분명하다.
Considerable research has been conducted to predict licensing examination scores.1–15 These studies have focused predominantly on the predictive validity that prematriculation variables, such as Medical College Admission Test (MCAT) scores and undergraduate grade point average (GPA), have on future academic performance.1–4,16 However, it has been well documented that the predictive power of both MCAT scores and undergraduate GPAs decreases as students progress toward graduation and learning shifts from cognitive to more clinical measures.5 As a result, the reliability of these variables when used to predict the future performance of medical students is unclear, as many licensing examinations do not occur until closer to graduation.5,6

예를 들어, 캐나다에서 Eva 등은 입학 변수(복수 미니 면접 점수, 자전적 논술 점수, 학부 GPA)와 국가 면허 시험 성과 사이의 연관성을 조사했다. 본 연구는 2004년과 2005년에 다른 곳에서 의대에 입학하였으나 불합격된 재학생과 의대에 입학한 재학생의 성적의 차이를 비교하였다. 그들의 분석에 따르면, 입학한 학생들은 불합격된 학생들에 비해 국가 면허 시험에서 더 높은 점수를 받았다.
In Canada, for example, Eva et al7 examined the association between admissions variables (multiple-mini interview scores, autobiographical essay scores, and undergraduate GPAs) and performance on national licensing examinations. This study compared differences between the performance of matriculated students and those that were rejected but gained entry to medical school elsewhere in 2004 and 2005. Evidence from their analysis suggests that matriculated students had higher scores on national licensing examinations compared with those who were rejected.

2013년, Woloschuk 등은 임상실습과 레지던트 첫 해 동안 관찰된 임상 성과가 4개 코호트에 걸쳐 캐나다 의학위원회 자격심사 파트 2(MCCQE2)에서 합격/불합격 성과를 예측할 수 있는지 조사했다. 그들은 임상실습 평가와 1년차 전공의 평가등급은 유의미하지만 MCCQE2의 합격/불합격 예측 변수는 좋지 않다는 것을 발견했다. 마찬가지로, 2016년에 Pugh 등은 객관적 구조화 임상 검사(OSCE)와 국가 고위험 검사 사이의 연관성을 조사했다. 이 연구는 8개 코호트의 데이터를 사용하여 내과 레지던트 OSCE 진행 테스트의 점수와 캐나다 왕립 의과대학 내과 종합 객관 검사 점수를 비교했다. 상관관계 및 로지스틱 회귀 분석의 결과는 OSCE 진행 테스트 점수와 임상 역량의 전국 고부담 검사가 연관되었음을 시사한다. 이러한 결과는 OSCE progress test가 향후 국가 고위험 시험에 실패할 위험이 있는 거주자를 식별하는 데 사용될 수 있음을 시사한다.
In 2013, Woloschuk et al8 examined whether clinical performance observed in clerkships and during the first year of residency could predict pass/fail performance on the Medical Council of Canada Qualifying Examination Part 2 (MCCQE2) across four cohorts. They found that clerkship evaluations and year 1 residency ratings were significant but poor predictors of pass/fail performance on the MCCQE2. Similarly, in 2016, Pugh et al9 examined the association between objective structured clinical examinations (OSCEs) and national high-stakes examinations. Using data from eight cohorts, this study compared scores from an internal medicine residency OSCE progress test versus scores from the Royal College of Physicians and Surgeons of Canada Comprehensive Objective Examination in Internal Medicine. Results from their correlation and logistic regression analysis suggest that OSCE progress test scores and national high-stakes examinations of clinical competency were associated. These findings suggest that OSCE progress tests could be used to identify residents at risk of failing a future national high-stakes examination.

2010년 이후, 미국에서 수행된 여러 연구는 과정과 평가 점수와 같은 [의대생 수행 변수]가 실제로 [입학 전 데이터]보다 면허 시험 수행의 더 강력한 예측 변수라고 제안했다. 이러한 연구는 2학년 학생 수행 결과 변수가 초기 면허시험에서 미래의 학업 위험도를 예측하는 가장 좋은 예측 변수임을 시사한다.
Since 2010, several studies conducted in the United States have suggested that medical student performance variables, such as course and assessment scores, are actually stronger predictors of licensing examination performance than prematriculation data.10–12 These studies suggest that year 2 student performance outcome variables are the best predictors of future academic risk on initial licensing examinations.

2015년, Gullo 등은 [사전 입학 수학 및 과학 GPA]와 [MCAT 점수]가 결합되었을 때, 미국 의학 면허 시험(USMLE) 1단계 성과에 대한 강력한 예측 변수라는 것을 발견했다. 그러나 추가적으로 [의대 내 과정 관련 평가 결과]가 추가되었을 때, 모델의 전반적인 예측 능력은 크게 향상되었다. 마찬가지로 Glaros 등은 의과대학 1학년부터 얻은 성과 데이터를 이용하여 3개 코호트에 걸쳐 종합골격의학면허시험 레벨 1에서 초기면허시험 성과를 성공적으로 예측할 수 있었다. 또한, Coumarbatch 등은 USMLE 1단계 실패 위험에 있는 학생을 식별하기 위해 이항 로지스틱 회귀 모델과 수신기 작동 특성(ROC) 곡선을 사용했다. 그들의 결과는 커리큘럼 2학년 누적 평균과 MCAT 생물과학 점수가 모두 초기 면허 시험에 실패할 위험이 있는 학생들을 식별하는 데 중요한 예측 변수라는 것을 보여주었다.

In 2015, Gullo et al10 found that MCAT scores combined with prematriculation math and science GPAs were strong predictors of United States Medical Licensing Examination (USMLE) Step 1 performance. However, when additional internal course-related assessment outcomes were added, the overall predictive ability of their model improved significantly. Similarly, Glaros et al11 were able to successfully predict initial licensing examination performance on the Comprehensive Osteopathic Medical Licensing Examination Level 1 using performance data obtained from the first year of medical school over three cohorts. Additionally, Coumarbatch et al12 used binary logistic regression models and receiver operating characteristic (ROC) curves to identify students at risk of failing the USMLE Step 1; their results showed that curricular year 2 cumulative averages and the MCAT biological sciences score were both significant predictors in identifying students at risk of failing initial licensing examinations.

위에서 설명한 연구는 위험에 처한 학생들을 식별하기 위해 동일한 중요한 목적을 해결하기 위해 유사한 방법론을 사용한다. 이 논문은 초기 면허 시험에 앞서 학생 위험을 식별하기 위해 5개의 코호트 및 예측 모델의 데이터를 사용하여 이 강력한 작업을 기반으로 한다. 또한 USMLE와 MCCQE 사이에는 기초 과학과 의료 전문가 콘텐츠 측면에서 (두 가지 모두 향후 실무에서 제공되는 의료 품질을 예측한 것으로 나타났다) 유사점이 있지만, 이 두 시험은 대체로 국가-특이적이다. 이로 인해 [미국 내에서 수행된 연구 결과]는 [캐나다 국가 면허 시험]에서 미래의 학생 저성적을 예측하는 데 덜 적용 가능하다.
The studies outlined above10–12 use similar methodologies to address the same important purpose—to identify students at risk. This paper builds on this robust work through the use of data from five cohorts and predictive models to identify student risk in advance of an initial licensing examination. Additionally, although there are parallels between the USMLEs and MCCQEs (both of which have been shown to be predictive of the quality of care provided in future practice17,18) in terms of basic science and medical expert content, these examinations are largely country specific. This makes results from studies conducted within the United States less applicable in predicting future student underperformance on Canadian national licensing examinations.

본 연구의 목적은 분석적 접근법을 사용하여 다음과 같은 연구 질문을 해결하는 것이었다. MCCQE1에 불합격할 위험을 예측하는 입학 변수와 커리큘럼 결과는 무엇입니까? 학생들의 실패 위험을 얼마나 빨리 예측할 수 있는가? 그리고 미래의 학생 위험 추정에 있어 예측 모델링이 어느 정도까지 가능하고 정확한가?
The purpose of our study was to address the following research questions using an analytic approach: Which admissions variables and curricular outcomes are predictive of being at risk of failing the MCCQE1? How quickly can student risk of failure be predicted? And to what extent is predictive modeling possible and accurate in estimating future student risk?

방법
Method

스터디 설정
Study setting

캐나다에서는 모든 의대생들이 졸업후 수련를 위한 교육 자격증을 취득하기 위해 MCCQE1을 응시한다. 이 검사는 일반적으로 MD 프로그램을 성공적으로 완료한 직후인 봄에 이뤄집니다. 캐나다 전역의 학부 의료 교육 커리큘럼 목표는 비슷하지만, 각 학교는 의대생 선발, 교육학적 접근, 평가 전략에서 자율적이다. 그러나 모든 캐나다 의과대학은 캐나다 의학부 협회가 정한 엄격한 인증 기준을 준수하며, 공식적인 인증 과정은 모든 의료 프로그램의 교육 요건이 품질, 내용 및 레지던트 및 전문 실습에 대한 준비 면에서 유사하다는 것을 보장한다. 
In Canada, all medical students take the MCCQE1 to receive an educational license for postgraduate training. This examination is typically written during the spring immediately following the successful completion of an MD program. While the undergraduate medical education curriculum objectives across Canada are similar, each school is autonomous in its selection of medical students, pedagogical approach, and assessment strategies. However, all Canadian medical schools adhere to rigorous accreditation standards set forth by the Association of Faculties of Medicine of Canada, and the formal accreditation process ensures that the educational requirements of all medical programs are comparable in quality, content, and preparing students for residency and professional practice.19

이 연구는 매년 약 171명의 신입생을 입학시키는 캐나다의 중간 규모의 의과대학인 웨스턴 대학의 슐리치 의과대학에 위치해 있었다. 각 학생 코호트는 메인 캠퍼스(런던, 온타리오)와 분산 캠퍼스(윈저, 온타리오)로 나뉜다. 비록 지리적으로 떨어져 있지만, 이 캠퍼스들은 비슷한 교육 프로그램, 동등한 평가, 그리고 동일한 커리큘럼을 가지고 있다.
This study was situated at the Schulich School of Medicine & Dentistry, Western University, a midsized medical school in Canada that matriculates about 171 new students each year. Each student cohort is divided between two campuses: the main campus (London, Ontario) and the distributed campus (Windsor, Ontario). Although geographically separated, these campuses have comparable education offerings, equivalent assessments, and an identical curriculum.

슐리히 의과대학원 학부 교육과정은 4년제 환자 중심의 통합형 교육과정으로 대규모 강의, 소그룹, 실험실, 지도임상 경험으로 구성된다. 이 교육학적 접근 방식은 개인, 문제 기반 소그룹, 능동적 및 직접 강의실 학습을 취학 전 연도(1학년과 2학년)에 결합한다. 3학년은 1년 동안의 통합 사무직 경험으로 구성된 단일 과정으로 구성되며, 프로그램의 마지막 해(4학년)에는 학생들이 임상 경험을 쌓고 레지던시를 준비할 수 있는 캡스톤 전환 과정과 임상 선택 학습에 모두 참여합니다.
The undergraduate curriculum at Schulich School of Medicine & Dentistry is a four-year, patient-centered, integrated curriculum composed of large-lecture, small-group, laboratory, and supervised clinical experiences. This pedagogical approach combines individual, problem-based small-group, active, and direct classroom learning in the preclerkship years (years 1 and 2). Year 3 consists of a single course—a yearlong integrated clerkship experience—while in the final year of the program (year 4), students participate in both clinical elective learning and a capstone transition course, which serves to enable students to build on their clinical experiences and prepare for residency.

데이터 및 분석
Data and analysis

우리는 졸업생의 5개 코호트(2011~2015년)에서 20년간의 중복 데이터를 소급하여 수집했으며, 각 코호트는 4년의 데이터를 나타낸다. 계층적 선형 모델링(HLM)과 민감도 및 특수성 분석을 사용하여 입학 변수와 커리큘럼 결과 데이터를 분석하였다. 예측 모델을 개발하기 위해 HLM7(Scientific Software International, Inc., Skokie, Illinois)과 IBM SPSS 소프트웨어 버전 23(IBM Corporation, Armonk, New York)을 사용하여 모델의 정확도를 평가하고 수집한 데이터를 사용하여 미래의 고장 위험을 예측하는 데 사용할 수 있는지 여부를 결정했습니다.m 2016년 졸업생 코호트는 예측 모델의 정확성을 테스트하기 위한 유일한 목적으로 수집되었다.
We retroactively collected 20 years of overlapping data from five cohorts of graduating students (2011–2015), with each cohort representing four years of data. We analyzed admissions variables and curricular outcomes data using hierarchical linear modeling (HLM) and sensitivity and specificity analysis. We used HLM7 (Scientific Software International, Inc., Skokie, Illinois) to develop our predictive models and IBM SPSS software, version 23 (IBM Corp., Armonk, New York) to produce the area under the ROC curve (AUC) to evaluate the models’ accuracy and determine whether they could be used to predict future risk of failure, using data collected from the 2016 graduating student cohort, which was collected for the sole purpose of testing the accuracy of our predictive models.

계층적 선형 모델링
Hierarchical linear modeling

데이터의 본질적인 계층적 특성(즉, 학생이 코호트 내에 내포됨)을 설명하기 위해, 우리는 2단계 HLM을 사용하여 MCCQE1의 성능 결과를 분석하였다. HLM은 경제학에서 사회학, 발달 심리학에 이르기까지 다양한 분야에 걸쳐 사용되는 다변량 통계 기법이다.
To account for the intrinsic hierarchal nature of the data (i.e., students were nested within cohorts), we used a two-level HLM to analyze performance outcomes on the MCCQE1. HLM is a multivariate statistical technique developed in the early 1980s20–22 that has been used across multiple fields from economics to sociology and developmental psychology.

계층적 일반화 선형 모델(HGLM)은 HLM의 확장으로 데이터가 비정규 분포를 따르거나 결과가 이진일 때 적용된다. 이 연구는 학생이 MCCQE1에 실패할 위험이 있는지 없는지의 위험 확률을 조사하기 때문에 예측 모델을 생성하기 위해 HGLM을 사용했다.
Hierarchical generalized linear models (HGLMs) are extensions of HLM and applied when data are non-normally distributed or outcomes are binary. Because this study examines the probability of risk of whether a student is or is not at risk of failing the MCCQE1, we used HGLMs to produce our predictive models.

민감도 및 특이성 분석
Sensitivity and specificity analysis

HGLM 분석에서 생성된 예측 모델을 적용할 때 각 학생에 대해 [개별 확률]이 생성된다. 그런 다음 이러한 개별 확률을 민감도 및 특이성 분석을 사용하여 실제 이진 결과와 비교할 수 있습니다.

  • 민감도는 실제 양성 비율이다. 즉, 위험하지 않은 것으로 확인된 모든 학생의 비율이 위험하지 않은 것으로 정확하게 식별되었다.
  • 특이성은 실제 음성 비율이다. 즉, 위험으로 식별된 모든 학생의 비율이 위험으로 정확하게 식별되었습니다.

In applying the predictive models produced from the HGLM analysis, individual probabilities are produced for each student. These individual probabilities can then be compared with true binary outcomes using sensitivity and specificity analysis.23,24 

  • Sensitivity is the true positive rate—that is, the proportion of all students identified as not at risk who were correctly identified as not at risk.
  • Specificity is the true negative rate—that is, the proportion of all students identified as at risk who were correctly identified as at risk.

ROC 곡선은 로지스틱 회귀 분석 또는 방법을 통해 결정된 이항 분류의 정확도를 평가하기 위해 여러 분야에서 사용된다. 25,26 ROC 곡선은 수직축의 민감도를 수평축의 1-특이성으로 표시한다. 즉, 그들은 참 긍정과 거짓 긍정의 관계를 조사합니다. 이것의 일부로, AUC 값이 계산됩니다.27 AUC 값이 0.5이면 무작위 정확도를 나타내고, 값이 1이면 실제 결과에 대한 예측 결과의 완벽한 정확도를 나타냅니다. 즉, AUC가 1에 가까울수록 예측은 더 정확합니다.
ROC curves are used in multiple fields to evaluate the accuracy of a binary classification determined through logistic regression or methods.25,26 ROC curves plot the sensitivity on the vertical axis by 1 − specificity on the horizontal axis. In other words, they examine the relationship between true positives and false positives. As part of this, the AUC is calculated.27 An AUC value of 0.5 represents random accuracy, while a value of 1 represents perfect accuracy in predicted outcomes to true outcomes; that is, the closer the AUC is to 1, the more accurate the prediction.

변수 및 분석
Variables and analysis

예측 변수.
Predictive variables.

예측 변수로는 성별, 고등학교 교육 위치(농촌 대 도시), 학부 GPA, MCAT 점수(언어추론, 물리·생물과학), 입학 면접 점수, 캠퍼스 위치(런던 대 윈저), 그리고 커리큘럼 성과 결과(1차 및 2차 과정은 성적, 1차 및 2차 연도 누적 평균, 4차 연도 합계 OSCE 점수)를 의미한다. 과정 평균 성적은 각 과정 내 학생들의 전반적인 성과에 기초한다.
Predictive variables included the following measures: gender, location of high school education (rural vs. urban), undergraduate GPA, MCAT scores (verbal reasoning, and physical and biological sciences), admissions interview scores, campus location (London vs. Windsor), and curricular performance outcomes (years 1 and 2 course mean grades, years 1 and 2 cumulative averages, and year 4 summative OSCE score). Course mean grades are based on students’ overall performance within each course.

코호트 전체에서 관찰된 입학 연령의 변동이 최소였기 때문에 입학 연령은 분석에서 잠재적 예측 변수로 포함되지 않았다. 들어오는 코호트의 평균 연령은 23세였고, 입학 연령과 종속 변수 사이에는 아무런 상관관계가 없었습니다. 그러나 별도의 분석은 학생의 입학 연령, 졸업 시 연령 및 프로그램 기간(년)을 포함하도록 실행되었다. 이러한 분석은 MCCQE1의 학생 failure 위험에 대한 차이를 보여주지 않았으며, 따라서 이러한 변수는 계수 추정치(아래 참조)에 영향을 미치지 않았으며, MCCQE1의 불합격 위험에 대한 중요한 예측 변수가 아니었다.
Age at matriculation was not included as a potential predictor within our analysis because there was minimal variation in age at matriculation observed across the cohorts. The average age of our incoming cohorts was 23, and there was no correlation between age at matriculation and our dependent variable. However, separate analyses were run to be inclusive of student’s age at matriculation, age at graduation, and program duration (in years); these analyses showed no difference on student risk of failure on the MCCQE1, and therefore, these variables did not impact our coefficient estimates (see below) and were not significant predictors of being at risk of failing the MCCQE1.

총 21개의 프리클릭십 과정 중, 각각 특정 신체 시스템을 강조하는 과정 중에서, 우리는 분석에 1, 2학년 과정 3개를 포함시켰다. 이 과정들은 학부 교육과정 학장과의 자문을 바탕으로 2011~2016학년도 졸업식 코호트에 비해 내용이 비교적 안정적이고 난이도가 높은 것으로 파악됐다.
Of a total of 21 preclerkship courses,28 each emphasizing a specific physical system, we included three courses from years 1 and 2 in our analysis. These courses were identified on the basis of consultation with the undergraduate dean of curriculum as being relatively stable in content and difficulty over the 2011–2016 graduating cohorts.

종속 변수입니다.
Dependent variable.

종속 변수는 450의 컷오프 점수를 사용하여 MCCQE1에서 학생들의 실패 위험을 측정하는 이분법화된 변수이다. 전체적으로 MCCQE1의 전국 평균 점수는 500점, 표준 편차는 100점, 합격 점수는 427점이다. 확률 추정에서 주의를 기울이지 않기 위해 표준 편차의 절반 이상이 평균 아래로 떨어진 학생들을 포착하기 위해 450의 보수적인 컷오프 점수를 할당했다.
The dependent variable is a dichotomized variable measuring student risk of failure on the MCCQE1, using a cutoff score of 450. Overall, the MCCQE1 has a national mean score of 500, standard deviation of 100, and pass score of 427. To err on the side of caution in our probability estimates, we assigned a conservative cutoff score of 450 to capture students that fell more than half of a standard deviation below the mean.

MCCQE1은 두 파트로 구성되며, 필기시험에 기초한 척도 점수를 사용한다. 2015년 이전에는 1차 부분은 연도별로 동등화되었으며 2차 부분은 매년 재평가되었다. 2015년부터, 전체 시험은 매년 동등하다. 또한 시험에 합격하기 위해 필요한 최소 점수가 이전 50-950 등급의 컷오프 점수 390점에서 2015년에는 427점(이전 등급의 경우 440점)으로 변경되었다.
The MCCQE1 uses a scaled score based on a two-part written examination. Prior to 2015, the first part was equated from year to year and the second part was reestimated every year. Since 2015, the full examination is equated from year to year. There was also a change in the minimum score needed to pass the examination, from a previous cutoff score of 390 on the old 50–950 scale to 427 (which would have been 440 on the old scale), in 2015.

자격 시험으로 사용하는 것 외에도, MCCQE1은 캐나다의 학부 의료 프로그램에 대한 국가 표준 역할을 하며, 여러 기관에 걸쳐 학생들의 성과를 비교할 수 있다. 따라서 이 검사는 의료 지식과 임상 의사 결정을 모두 측정하는 높은 위험도의 종합 컴퓨터 기반 평가입니다. 
Aside from its use as a qualifying examination, the MCCQE1 also serves as a national standard for undergraduate medical programs in Canada and allows student performance to be compared across institutions.29 This examination is, therefore, a high-stakes, summative computer-based assessment, measuring both medical knowledge and clinical decision making.29

모델 빌딩
Model building

우리는 반복적인 단계적 과정을 통해 예측 모델을 개발했다. 첫째, 성별, 고등학교 교육의 위치(농촌 대 도시), 캠퍼스 위치(런던 대 윈저) 등 학생 특성 변수를 살펴보았다. 예측특성변수가 결정된 후 학부 내신, 면접점수, MCAT점수 등 입시변수를 추가하였다. 마지막으로, 우리는 1학년과 2학년 평균 성적과 누적 평균, 4학년 종합 OSCE 점수와 같은 커리큘럼 결과를 한 번에 1년씩 추가했다. 우리의 예측 변수는 표준화된 변수와 표준화되지 않은 변수를 모두 포함했기 때문에, 우리는 각 변수에 대한 코호트 간의 그룹 평균 차이를 비교할 수 있도록 그룹 기반 센터링을 선택했다. 우리는 분석 단계에서 목록별 삭제를 사용하여 누락된 데이터가 있는 관측치를 제거했다. 본 연구에서 사용된 일반적인 HGLM 모델의 예는 부록 1에 제시되어 있다.
We developed predictive models through an iterative, stepwise process.30 First, we examined student characteristic variables such as gender, location of their high school education (rural vs. urban), and campus location (London vs. Windsor). After the predictive characteristic variables were determined, we added admissions variables, such as undergraduate GPA, interview scores, and MCAT scores. Lastly, we added curricular outcomes, such as years 1 and 2 course mean grades and cumulative averages and year 4 summative OSCE score, one year at a time. Because our predictive variables were inclusive of both standardized and unstandardized variables, we selected group-based centering to allow us to compare group mean differences across cohorts for each variable. We removed observations with missing data using listwise deletion at the analysis stage. An example of a general HGLM model used in this study is provided in Appendix 1.

다음으로, 각 변수 집합에 대한 계수를 추정하고 입학 1, 2학년 및 MCCQE1 이전(또는 MCCQE1 이전 5개월)에서 학생들의 실패 위험을 평가하기 위해 모델 내에서 식별된 변수를 사용하여 개별 예측 모델을 만들었다. 마지막으로, 이러한 모델은 MCCQE1 실패 위험에서 학생을 예측하는 정확성을 평가하기 위하여 AUC를 사용하여 각 코호트(2011-2015)에 개별적으로 적용되었다. 이러한 모델은 향후 위험을 예측하는 데 사용될 수 있는지 여부를 결정하기 위해 2016년 코호트에도 적용되었다.
Next, individual predictive models were created using variables identified within our model to estimate the coefficients for each set of variables and assess student risk of failure at admissions, year 1, year 2, and pre-MCCQE1 (or five months prior to the MCCQE1). Lastly, these models were applied separately to each cohort (2011–2015) using AUCs to evaluate their accuracy in predicting students at or not at risk of failing the MCCQE1. These models were also applied to the 2016 cohort to determine whether they could be used to predict future risk.

이 연구는 웨스턴대학교 보건과학연구윤리위원회의 검토를 거쳐 면제 판정을 받았다.
This study was reviewed by the Health Science Research Ethics Board at Western University and was determined to be exempt.

결과.
Results

2011년부터 2015년까지 총 5개 졸업생의 코호트(각 코호트별 데이터 4년)에 걸쳐 20년간의 중복 데이터가 수집되었으며, 총 788명의 학생으로 구성되어 있다. 각 코호트의 학생 수는 147명에서 168명 사이였으며, 코호트당 평균 157명의 학생이 있었다. 표 1은 HGLM 분석 개발에 사용된 예측 변수에 대한 평균, 표준 편차 및 가능한 점수 범위를 제공한다.
In total, 20 years of overlapping data were gathered across five cohorts of graduating students (4 years of data from each cohort) from 2011 to 2015, comprising 788 students. The number of students in each cohort ranged from 147 to 168, with an average number of 157 students per cohort. Table 1 provides the mean, standard deviation, and range of possible scores for the predictive variables used in the development of the HGLM analysis.

 

표 1에 나타난 바와 같이 변수별 학생 수는 변수별 가능한 점수 및 평균의 범위와 같이 다양하다. 그러나 각 변수 그룹 내의 표준 편차는 매우 유사합니다. 또한 전체 학생의 389명(49.4%)이 남학생이었고 348명(44.2%)이 여학생이었다.
As shown in Table 1, the number of students per variable varies, as do the ranges of possible scores and means for each variable. However, the standard deviations within each group of variables are very similar. Additionally, 389 (49.4%) of all students were male and 348 (44.2%) were female.


HGLM 분석의 결과를 기반으로, 우리는 다음 5가지 변수를 고장 위험에 대한 중요한 예측 변수로 식별할 수 있었다. 
성별, MCAT 언어 추론 점수, 2개의 프리클래스 과정 평균 성적(1학년 과정 C와 2학년 과정 A), 4학년 합계 OSCE 점수(표 2).
On the basis of results from our HGLM analyses, we were able to identify the following five variables as significant predictors of being at risk of failure:

  • gender,
  • MCAT verbal reasoning score,
  • two preclerkship course mean grades (year 1 course C and year 2 course A), and
  • the year 4 summative OSCE score (Table 2).

 

이러한 결과는 평균적으로 다른 모든 변수를 제어할 때 여성이 남성보다 MCCQE1에서 450점(즉, 실패 위험이 없는 경우)을 획득할 확률이 더 높다는 것을 보여주었다. 이 발견은 고부담 의학 시험에서의 성별 성과 격차가 줄어들고 있음을 시사할 수 있다. 그러나 이러한 성별 관련 성과격차를 더 살펴보기 위해서는 향후 연구가 필요하다. 또한 MCAT 언어 추론 점수(코호트의 평균에 비해)가 더 높은 학생, 1학년 과정 C와 2학년 과정 A의 평균 성적, 4학년 종합 OSCE 점수가 실패의 위험에 처하지 않을 확률이 더 높다.
These results showed that, on average, females have higher odds of scoring ≥ 450 on the MCCQE1 (i.e., of not being at risk of failure) than males, when controlling for all other variables. This finding may suggest that the gender performance gap on high-stakes medical examinations is narrowing. However, future research is needed to examine this gender-related performance gap further. Additionally, students with higher (relative to their cohort’s average) MCAT verbal reasoning scores, year 1 course C and year 2 course A mean grades, and year 4 summative OSCE scores have higher odds of not being at risk of failure.


예측 모델(입학 1, 2학년 및 pre-MCCQE1 )을 개발한 후, 각 코호트의 데이터를 별도로 입력하여 학생들의 실패 위험을 얼마나 정확하게 예측했는지 조사했다. 그런 다음 2016년 코호트 데이터를 사용하여 미래 위험을 예측하는 모델의 정확도를 조사했다. 표 3은 AUC에서 계산된 모델 정확도 결과를 제공합니다.
After developing the predictive models (at admissions, year 1, year 2, and pre-MCCQE1), we examined how accurate we were in predicting student risk of failure by inputting data from each cohort separately. We then examined the accuracy of the models in predicting future risk using the 2016 cohort data. Table 3 provides the model accuracy results calculated from the AUC.

모델의 예측 정확도(AUC)는 다양하다. 전반적으로, pre-MCCQE1 model 은 학생의 실패 위험 예측에 가장 정확하며(AUC 0.66–0.93) 입학 모델은 MCCQE1 실패 위험의 정확한 예측 변수는 아니다(AUC 0.25–0.47). 1, 2, MCCQE1 이전 모델의 정확도는 2013년, 2014년 및 2015년 코호트에 대해 높은 수준의 정확도로 매년 다릅니다. 예를 들어, 2014년 코호트의 경우, 2년차 모델에서 AUC가 0.90(95% 신뢰 구간 0.84, 0.97)이었고, 이는 위험에 처한 학생들을 예측하는 강력한 능력을 보여주었다. 전반적으로, 2016년 코호트로 미래 성과를 예측하는 데 있어 모델은 덜 예측되었으며, 우리는 MCCQE1 이전 모델을 통해서만 유의미한 AUC를 달성할 수 있었다. 이는 모델이 위험에 처한 학생들을 정확하게 예측하는지 확인하기 위해 모델을 평가하고 수시로 업데이트할 필요가 있음을 시사한다.
The predictive accuracy (AUC) of the models varies. Overall, the pre-MCCQE1 model is the most accurate at predicting a student’s risk of failing (AUC 0.66–0.93), while the admissions model is not an accurate predictor of being at risk of failing the MCCQE1 (AUC 0.25–0.47). The accuracy of the year 1, year 2, and pre-MCCQE1 models varies from year to year, with high levels of accuracy for the 2013, 2014, and 2015 cohorts. With the 2014 cohort, for example, we had an AUC of 0.90 (95% confidence interval 0.84, 0.97) in our year 2 model, demonstrating a strong ability to predict students being at risk. Overall, the models were less predictive when it came to predicting future performance with the 2016 cohort, for which we were only able to achieve a significant AUC with the pre-MCCQE1 model. This suggests that the models need to be evaluated and updated from time to time to ensure that they are accurately predicting students at risk.

논의
Discussion

이 논문은 학부 의학 교육에서 예측 모델링의 가능성과 정확성에 대한 접근법과 증거를 모두 제공한다. 5개 코호트의 20년 데이터(각 코호트의 4년 데이터)를 사용하여 4개의 예측 모델을 개발하고 입학 1, 2학년 및 MCCQE1 이전에서 국가 면허 시험에 실패할 수 있는 학생 위험을 식별하는 데 있어 정확도를 측정했다. HGLM 분석의 결과는 국가 면허 시험인 MCCQE1에서 낙제할 위험이 있는 학생들을 예측하는 5가지 주요 입학 변수와 커리큘럼 결과를 확인했다. 이전 연구 결과와 유사하게, 우리 모델의 증거는 [입학 과정 동안 학생 위험을 식별하는 것은 불가능]하지만, [1학년 말]까지는 실패 위험이 있는 학생을 식별하고 모니터링하기 시작할 수 있음을 시사한다. 그러나 이러한 예측은 2년차 및 MCCQE1 이전에도 추가로 검증되어야 한다.
This paper offers both an approach and evidence of the possibility and accuracy of predictive modeling in undergraduate medical education. Using 20 years of data across five cohorts (4 years of data from each cohort), we developed four predictive models and measured their accuracy in identifying student risk of failing a national licensing examination at admissions, year 1, year 2, and pre-MCCQE1. Outcomes from our HGLM analysis identified five key admissions variables and curricular outcomes that are predictive of students at risk of failing the MCCQE1, a national licensing examination. Similar to findings from previous studies, evidence from our models suggests that, while it is not possible to identify student risk during the admissions process, we can begin to identify and monitor students at risk of failure by the end of year 1 studies.10–12 However, these predictions must be further validated in year 2 and again pre-MCCQE1.

우리의 AUC 분석 결과들은 이러한 모델의 예측 정확도가 코호트마다 달랐음을 시사한다. 그러나 모델에 더 많은 변수가 추가됨에 따라 정확도가 높아지면서 학생들의 실패 위험을 더 잘 예측할 수 있었다. 2013년, 2014년 및 2015년 코호트의 경우 높은 수준의 정확도로 학생들의 실패 위험을 예측할 수 있었습니다. 2016년 미래 학생 위험을 추정할 때 모델이 덜 예측된 것으로 밝혀졌지만, 여전히 MCCQE1 이전 모델을 사용하여 학생의 실패 위험을 어느 정도 정확하게 예측할 수 있어 학생의 역량 수준에 따라 개입이 가능하다. 코호트 간의 변동은 이러한 모델을 매년 평가하여 학생 모집단 내의 커리큘럼 변경이나 차이를 통제해야 할 수 있음을 시사한다.
Findings from our AUC analyses suggest that the predictive accuracy of these models varied among the cohorts. However, as more variables were added to our model, we were able to better predict student risk of failure with increasing levels of accuracy. For the 2013, 2014, and 2015 cohorts, we were able to predict student risk of failure with high levels of accuracy. While the models were found to be less predictive in 2016, when estimating future student risk, we were still able to predict student risk of failure with some accuracy using our pre-MCCQE1 model, allowing for intervention depending on the student’s level of competency. The variation among cohorts suggests that these models may need to be evaluated from year to year to control for any curricular changes or differences within student populations.

AUC에서 산출된 추정치는 내부적으로 학생들을 위험 범주(낮음, 중간 또는 높음)로 분류하기 위해 컷오프 점수를 생성하는 데 사용될 것이다. 그런 다음 1, 2학년 및 MCCQE1 이전 모델을 사용하여 여러 단계에서 학생 위험을 평가합니다. 어느 단계에서든 중간에서 고위험으로 확인된 학생은 사례별로 검토한다(학생 성과에 관한 다른 지원 문서도 고려된다). 그런 다음 학생의 필요에 따라 지원과 개입이 우선됩니다.
Estimates produced from our AUCs will be used internally to create cutoff scores to classify students into risk categories (low, medium, or high). Student risk will then be assessed at multiple stages using our year 1, year 2, and pre-MCCQE1 models. Students identified as medium to high risk at any stage will be reviewed on a case-by-case basis (with other supporting documentation regarding student performance taken into consideration). Support and intervention will then be prioritized on the basis of student need.

프로그램적 관점에서, 이러한 결과는 교육자와 리더가 국가 면허 시험에 앞서, 효과적인 개입과 함께 조기 발견을 통해 학습자를 더 잘 지원하고, 미래의 학업 실패 위험을 최소화할 수 있는 잠재력을 가지고 있다. 프로그램은 학업 실패의 위험에 처한 학습자를 정확하게 식별하고 지원할 수 있는 신뢰할 수 있는 방법을 갈망한다. 이 연구는 예측 모델링이 어떻게 저성능을 식별하기 위해 사용될 수 있는지를 보여주는 사례이다. 데이터 중심 의사 결정과 투명성 및 책임성 증대에 대한 요구의 시대에 캐나다 의과대학은 학생 교육을 위한 정부 기금을 제공할 사회적 책임이 있으며, 입학 전에 학습자의 상대적 동질성을 고려할 때 리더는 효과적인 형성적 의사 결정을 지원하기 위한 도구를 중요시한다.
From a programmatic standpoint, these results have the potential to allow educators and leaders to better support learners and minimize risk of future academic failure through early detection, coupled with effective intervention, in advance of national licensing examinations. Programs thirst for a reliable way to accurately identify and support learners at risk of academic failure; this study serves as an example of how predictive modeling can be used to identify underperformance. In an era of data-driven decision making and demand for greater transparency and accountability, Canadian medical schools are socially accountable to deliver on government funding for student education, and, given the relative homogeneity of learners before matriculation, leaders value tools to support effective formative decision making.

5개 코호트에서 20년 이상의 데이터를 사용하여 다른 국가 간 연구와 일치하는 많은 발견을 확인할 수 있었다. 본 논문은 의과대학 1학년 내 잠재적 학업위험 학생을 능동적으로 식별하고 정량적으로 모니터링하기 위한 새로운 접근방식을 프로그램과 교육자에게 제공한다. 비록 우리의 연구 결과가 초기 면허 시험에 앞서 (AUC를 통해) 학생 실패에 대한 위험 점수를 정확하게 추정할 수 있었다는 것을 보여주지만, 우리가 다루고 싶은 몇 가지 제한이 있다.
Using over 20 years of data across five cohorts, we were able to confirm many findings consistent with other cross-national studies.10–12,16 This paper offers programs and educators with a new approach to proactively identify and monitor students at potential academic risk quantitatively within the first years of medical school. Even though our findings indicate that we were able to accurately estimate a risk score for student failure (via AUCs) in advance of an initial licensing examination, there are a few limitations we would like to address.

첫째, 우리 모델은 시간에 따른 변동성에 매우 민감하다. 이것은 매년 교육학적 변화와 학생 인구 차이를 모두 반영할 수 있지만, 추정을 더 어렵게 만든다. 그러나, 우리는 여전히 안정적인 학생 추정치가 우리의 예측에서 다소 정확하다는 것을 발견했다. 그럼에도 불구하고, 우리의 데이터는 이 접근법을 채택하는 학교가 커리큘럼 변화나 학생 인구 차이를 고려하여 이러한 모델을 주기적으로 업데이트할 필요가 있음을 경고할 필요가 있음을 시사한다. 또한, 우리의 결과는 분석을 통한 예측을 학습자를 식별하고 지원하기 위한 개입을 제공하기 위한 강력한 커리큘럼 거버넌스 도구로 인정하지만, 이러한 가능성에서 생성된 추정치는 코스 의장과 교직원의 다른 지원 문서와 함께 지침으로 사용되어야 한다. 마지막으로, 본 연구는 기관별 변수에 크게 의존한 것으로 보이지만(이러한 연구결과의 일반화 가능성을 제한할 수 있음), 모든 의과대학이 접근할 수 있고 예측을 위해 분석할 수 있는 변수를 포함하도록 예측 모델을 구성했다. 따라서 본 연구에서 제시한 방법론과 모델링이 다른 대학에서도 효과적으로 재현될 수 있을 것으로 판단된다.
First, our models are highly sensitive to variability over time. While this may be reflective of both pedagogical changes and student population differences from year to year, it makes estimation more challenging. However, we still found stable student estimates to be modestly accurate in our predictions. Nevertheless, our data suggest that schools adopting this approach need to be cautioned of a need for these models to be updated periodically to account for any curricular changes or student population differences. Additionally, while our results acknowledge prediction through analytics as a powerful curricular governance tool to identify and offer intervention to support learners, the estimates produced from these probabilities should be used as a guide, alongside other supporting documentation from course chairs and faculty as well as program governance indicators. Finally, although this study appears to have relied heavily on institution-specific variables (which could limit the generalizability of these findings), we constructed our predictive models to be inclusive of variables that all medical schools have access to and can analyze for prediction. As a result, we believe the methodology and modeling presented within this study could be effectively replicated at other universities.

결론들
Conclusions

학생 데이터에 대한 분석적 접근 방식을 사용하여, 실패 위험이 있는 학생을 조기에 식별하기 위한 노력으로, 우리는 주요 예측 변수를 체계적으로 식별하고 국가 면허 시험에서 향후 학생 성과를 예측하는 데 사용할 수 있는 방법론을 제공할 수 있었다고 믿는다. HGLM과 AUC 분석을 사용하여 프로그램 연구 초기에 MCCQE1에서 학생들의 학업 실패 위험을 정량화할 수 있었다. 이러한 유형의 모델에서 발견한 결과는 프로그램이 잠재적인 학업 위험에 있는 학생을 정량적으로 더 잘 식별하고 모니터링하며 맞춤형 조기(잠재적으로 이 핵심 경력 평가 전에 최대 3년) 개입 전략을 개발할 수 있도록 할 수 있다.
Using an analytic approach to student data, in an effort to identify students at risk of failure early on, we believe we were able to systematically identify key predictive variables and offer a methodology that could be used to predict future student performance on national licensing examinations. Through the use of HGLM and AUC analyses, we were able to quantify student risk of academic failure on the MCCQE1 early on within program studies. Findings from these types of models could enable programs to better identify and monitor students at potential academic risk quantitatively and develop tailored early (potentially up to three years prior to this key career assessment) intervention strategies.


새로운 MCCQE1의 향후 변경사항이 학생들의 성적과 시험에 들어가는 학생 위험을 예측하는 우리의 능력에 어떤 영향을 미칠 수 있는지 검토하기 위한 향후 연구가 필요하다. 우리는 또한 MCCQE1의 성별 성과 차이를 추가로 조사해야 한다고 제안한다. 마지막으로, 본 연구는 졸업 후 2년 후에 제공되는 MCCQE2에서 학생들의 실패 위험을 조사하기 위해 확장되어야 한다.

Future research is required to examine how forthcoming changes made to the new MCCQE131 may affect student performance as well as our ability to predict student risk going into the examination. We also propose that gender performance differences on the MCCQE1 should be further examined. Lastly, this study should be expanded to examine student risk of failure on the MCCQE2, which is offered two years post graduation.

결론적으로, 우리의 모델과 결과는 의과대학이 커리큘럼 내의 변수를 사용하여 면허 시험 결과를 더 잘 예측하기 위해 학생 데이터 검토에 분석적 접근 방식을 추가하는 것을 고려할 수 있음을 시사한다. 이것은 교육자들이 조기에 효과적으로 개입하고 잠재적인 위험에 처한 것으로 보이는 학생들에게 맞춤형 개입을 제공하게 할 수 있다. 이러한 모델은 프로그램이 미래의 학생 성과를 더 잘 예측할 수 있을 뿐만 아니라 프로그램 졸업생들을 자신 있게 식별, 지원 및 개선할 수 있도록 할 수 있는 잠재력을 가질 수 있다.

In conclusion, our models and results suggest that medical schools may wish to consider adding an analytic approach to student data review to better predict licensing examination outcomes using variables within their curriculum. This could lead educators to effectively intervene early and offer tailored interventions to students seen to be at potential risk. These models may have the potential to enable programs to not only better predict future student performance but also to allow them to confidently identify, support, and improve the quality of program graduates.

 

 


Acad Med. 2018 Mar;93(3):478-485. doi: 10.1097/ACM.0000000000001938.

In Search of Black Swans: Identifying Students at Risk of Failing Licensing Examinations

Affiliations collapse

Affiliation

1C. Barber is assessment, data, and reporting analyst for undergraduate medical education, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. R. Hammond is associate dean of admissions, professor, and program director, Neuropathology Residency Program, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. L. Gula is professor, Departments of Medicine and Epidemiology and Biostatistics, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. G. Tithecott is associate dean of undergraduate medical education and section head for general academic paediatrics, Department of Paediatrics, London Health Sciences Center, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. S. Chahine is scientist, Center for Education Research and Innovation, and assistant professor, Department of Medicine, Faculty of Education, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada; ORCID: http://orcid.org/0000-0003-0488-773X.

PMID: 28953566

DOI: 10.1097/ACM.0000000000001938

Abstract

Purpose: To determine which admissions variables and curricular outcomes are predictive of being at risk of failing the Medical Council of Canada Qualifying Examination Part 1 (MCCQE1), how quickly student risk of failure can be predicted, and to what extent predictive modeling is possible and accurate in estimating future student risk.

Method: Data from five graduating cohorts (2011-2015), Schulich School of Medicine & Dentistry, Western University, were collected and analyzed using hierarchical generalized linear models (HGLMs). Area under the receiver operating characteristic curve (AUC) was used to evaluate the accuracy of predictive models and determine whether they could be used to predict future risk, using the 2016 graduating cohort. Four predictive models were developed to predict student risk of failure at admissions, year 1, year 2, and pre-MCCQE1.

Results: The HGLM analyses identified gender, MCAT verbal reasoning score, two preclerkship course mean grades, and the year 4 summative objective structured clinical examination score as significant predictors of student risk. The predictive accuracy of the models varied. The pre-MCCQE1 model was the most accurate at predicting a student's risk of failing (AUC 0.66-0.93), while the admissions model was not predictive (AUC 0.25-0.47).

Conclusions: Key variables predictive of students at risk were found. The predictive models developed suggest, while it is not possible to identify student risk at admission, we can begin to identify and monitor students within the first year. Using such models, programs may be able to identify and monitor students at risk quantitatively and develop tailored intervention strategies.

 

객관식 시험 자료의 사후 분석 - 고부담 시험 모니터링 및 개선: AMEE Guide No. 66 (Med Teach, 2012)
Post-examination interpretation of objective test data: Monitoring and improving the quality of high-stakes examinations: AMEE Guide No. 66 
MOHSEN TAVAKOL & REG DENNICK

 

 

서론
Introduction

시험 과정의 결과는 형식적으로, 피드백의 형태로, 또는 총괄적으로 수행에 대한 공식적인 판단으로 학생들에게 전달된다. 분명히, 학생과 대중의 요구를 충족시키는 출력을 생산하기 위해서는, 프로세스에 대한 입력을 정의, 모니터링 및 제어할 필요가 있다. 고전적 시험 이론(CTT)은 시험 후 분석에 대한 input이 학생의 관찰된 지식 및 역량에 영향을 미칠 수 있는 측정 오류의 원천을 포함하고 있다고 가정한다. 측정 오류의 원인은 테스트 구성, 관리, 점수 매기기 및 성능 해석에서 도출된다. 예를 들어, 지식 기반 문항 간의 품질 차이, 평가자 간의 차이, 후보 간의 차이, 목표 구조 임상 검사(OSCE) 내의 표준화된 환자(SP) 간의 차이 등이 있다.
The output of the examination process is transferred to students either formatively, in the form of feedback, or summatively, as a formal judgement on performance. Clearly, to produce an output which fulfils the needs of students and the public, it is necessary to define, monitor and control the inputs to the process. Classical Test Theory (CTT) assumes that inputs to post-examination analysis contain sources of measurement error that can influence the student's observed scores of knowledge and competencies. Sources of measurement error is derived from test construction, administration, scoring and interpretation of performance. For example;

  • quality variation among knowledge-based questions,
  • differences between raters,
  • differences between candidates and variation between standardised patients (SPs) within an Objective Structured Clinical Examination (OSCE).

고부담 검사의 품질을 향상시키기 위해 오류를 최소화하고 가능하면 제거해야 한다. CTT는 측정 오류의 출처를 최소화하거나 제거하면 관찰된 점수가 실제 점수에 근접할 것으로 가정한다. [신뢰성]은 검정의 측정 오차 양을 보여주는 핵심 추정치입니다. 간단한 해석은 신뢰성은 시험 자체와 그 자체의 상관관계라는 것이다. 이 상관 관계를 제곱하여 100을 곱하고 100에서 빼면 검정의 오차 백분율이 표시됩니다. 예를 들어, 시험의 신뢰도가 0.80이면 점수에 36%의 오차 분산(랜덤 오차)이 있습니다. 신뢰도 추정치가 증가할수록 오류에 기인하는 시험 점수의 비율이 감소합니다. 반대로 오차의 양이 증가하면 신뢰도 추정치는 감소합니다(Nunly & Bernstein).

To improve the quality of high-stakes examinations, errors should be minimised and, if possible, eliminated. CTT assumes that minimising or eliminating sources of measurement errors will cause the observed score to approach the true score. Reliability is the key estimate showing the amount of measurement error in a test. A simple interpretation is that reliability is the correlation of the test with itself; squaring this correlation, multiplying it by 100 and subtracting from 100 gives the percentage error in the test. For example, if an examination has a reliability of 0.80, there is 36% error variance (random error) in the scores. As the estimate of reliability increases, the fraction of a test score that is attributable to error will decrease. Conversely, if the amount of error increases, reliability estimates will decrease (Nunnally & Bernstein ).

일부 의과대학은 OSCE 검사를 모니터링하고 개선하기 위해 신뢰성 검사 및 항목 분석과 같은 정신계량학적 방법을 채택했지만(Lawson; Iramaneerat 등), 일반성 이론 및 래쉬 모델링과 같은 고급 정신계량학적 방법의 사용은 아직 널리 보급되지 않았다. 
Although some medical schools have adopted psychometric methods such as reliability testing and item analysis to monitor and improve OSCE examination (Lawson ; Iramaneerat et al. ), the use of advanced psychometric methods such as generalisability theory and Rasch modelling has yet to become widespread.

따라서 이 가이드의 목적은 몇 가지 예를 사용하여 전통적인 및 고급 심리측정법의 사용과 해석을 설명하는 것이다. 궁극적으로 독자들은 자신의 시험 데이터와 함께 이러한 방법을 사용하는 것을 고려할 것을 권장한다. 우리는 다른 곳(Tavakol & Dennick)에서 SPSS를 사용하여 객관적인 테스트에서 검사 후 데이터를 생성하는 방법을 설명했으므로, 이 기사에서는 이러한 방법에 대해 논의하지 않을 것이다. 객관적 테스트와 OSCE의 검사 후 데이터에 대한 전통적인 해석으로 시작한 후 현대 심리 측정 방법의 적용을 살펴볼 것이다. 우리는 후속 검사를 개선하기 위한 방법을 예시하기 위해 시뮬레이션 데이터를 사용할 것이다. 
Therefore, the objective of this Guide is to illustrate the use and interpretation of traditional and advanced psychometric methods using several examples. Ultimately, readers are encouraged to consider using these methods with their own exam data. We have explained how to generate post-examination data from objective tests using SPSS elsewhere (Tavakol & Dennick ), and therefore we will not discuss these methods in this article. We shall begin with the traditional interpretation of post-exam data from objective tests and OSCEs and then look at the application of modern psychometric methods. We will use simulated data to exemplify methods for improving subsequent examinations.

기본 사후검사 결과 해석
Interpretation of basic post-examination results

개별 질문
Individual questions

[기술 분석]은 시험의 원시 데이터를 요약하고 표시하는 첫 번째 단계입니다. 각 질문에 대한 분포 빈도는 누락된 질문의 수와 추측 행동의 패턴을 즉시 보여준다. 예를 들어, 문항에 누락된 응답이 식별되지 않은 경우, 이는 학생들이 좋은 지식을 가지고 있거나 일부 질문에 대해 추측하고 있었음을 시사한다. 반대로, 누락된 문제 응답이 있는 경우, 이는 시험을 완료하기에 부적절한 시간, 특히 어려운 시험 또는 부정적인 표시가 사용되는 것일 수 있습니다. 
A descriptive analysis is the first step in summarising and presenting the raw data of an examination. A distribution frequency for each question immediately shows up the number of missing questions and the patterns of guessing behaviour. For example, if there were no missing question responses identified, this would suggest that students either had good knowledge or were guessing for some questions. Conversely, if there were missing question responses, this might be either an indication of an inadequate time for completing the examination, a particularly hard exam or negative marking is being used (Stone & Yeh ; Reeve et al. ).

시험 문제의 평균과 분산은 우리에게 각 문제에 대한 중요한 정보를 제공할 수 있다. 이분법 문항의 평균은 0점 또는 1점으로 p로 표시된 정답 학생의 비율과 같다.

  • 이분법 문항의 [분산]은 문제 정답자 비율(p)에 오답자 비율(q)을 곱하여 계산한다.
  • 표준 편차(SD)를 얻기 위해, 우리는 단지 p × q의 제곱근을 구한다.

예를 들어, 객관식 시험에서 300명의 학생이 1번 문제를 맞혔고 100명의 학생이 1번 문제를 틀렸을 경우, 1번 문제의 p 값은 0.75(300/400)와 같으며, 분산과 SD 값은 각각 0.18(0.75 x 0.25)과 0.42가 됩니다. 

The means and variances of test questions can provide us with important information about each question. The mean of a dichotomous question, scored either 0 or 1, is equal to the proportion of students who answer correctly, denoted by p.

  • The variance of a dichotomous question is calculated from the proportion of students who answer a question correctly (p) multiplied by those who answer the question incorrectly (q).
  • To obtain the standard deviation (SD), we merely take the square root of p × q. 

For example, if in an objective test, 300 students answered Question 1 correctly and 100 students answered it incorrectly, the p value for Question 1 will be equal to 0.75 (300/400), and the variance and SD will be 0.18 (0.75 × 0.25) and 0.42 

SD는 주어진 질문 내에서 변동 또는 분산의 척도로 유용하다. SD가 낮으면 문제가 너무 쉬우거나 너무 어렵다는 것을 나타냅니다. 예를 들어, 위의 예에서 SD가 낮다는 것은 항목이 너무 쉽다는 것을 나타냅니다. 문제 1의 항목 난이도(0.75)와 낮은 항목 SD를 고려할 때 대부분의 학생들이 정답에 관심을 기울였기 때문에 항목에 대한 응답이 분산되지 않았다고 결론 내릴 수 있다. 평균이 분포의 중심에 있는 질문의 변동성이 높을 경우 질문이 유용할 수 있습니다.

 respectively. The SD is useful as a measure of variation or dispersion within a given question. A low SD indicates that the question is either too easy or too hard. For example, in the above example, the SD is low indicating that the item is too easy. Given the item difficulty of Question 1 (0.75) and a low item SD, one can conclude that responses to item was not dispersed (there is little variability on the question) as most students paid attention to the correct response. If the question had a high variability with a mean at the centre of distribution, the question might be useful.

 

총 수행능력
Total performance

각 문항별 평균과 SD를 구한 뒤 각 문항별 학생별 정답 합계를 구한 뒤 전체 수행의 평균과 SD를 계산하는 기존 수행분석을 할 수 있다. SPSS를 사용하여 히스토그램을 만들면 특정 검정의 표시 분포를 이해할 수 있습니다. 학생들의 점수는 정규 분포를 따르거나 왼쪽이나 오른쪽으로 치우치거나 직사각형 모양으로 분포할 수 있다. 그림 1(a)은 양의 치우친 분포를 보여줍니다. 이것은 단순히 대부분의 학생들이 낮은 점수에서 중간 점수를 가지고 있고 소수의 학생들은 상대적으로 높은 점수를 받았다는 것을 보여준다. 양의 치우침 분포에서는 모수와 중위수가 평균보다 크므로 대부분의 학생들에게 문제가 어려웠음을 나타냅니다. 그림 1(b)은 학생들의 점수가 음으로 치우친 분포를 보여준다. 이것은 대부분의 학생들이 중간에서 높은 점수를 받았고 소수의 학생들은 상대적으로 낮은 점수를 받았다는 것을 보여준다. 음으로 치우친 분포에서 모수와 중위수가 평균보다 작다는 것은 대부분의 학생들이 문제가 쉬웠음을 나타냅니다.

After obtaining the mean and SD for each question, the test can be subjected to conventional performance analysis where the sum of correct responses of each student for each item is obtained and then the mean and SD of the total performance are calculated. Creating a histogram using SPSS allows us to understand the distribution of marks on a given test. Students’ marks can take either a normal distribution or may be skewed to the left or right or distributed in a rectangular shape. Figure 1(a) illustrates a positively skewed distribution. This simply shows that most students have a low-to-moderate mark and a few students received a relatively high mark in the tail. In a positively skewed distribution, the mode and the median are greater than the mean indicating that the questions were hard for most students. Figure 1(b) shows a negatively skewed distribution of students’ marks. This shows that most students have a moderate-to-high mark and a few students received relatively a low mark in the tail. In a negatively skewed distribution, the mode and the median are less than the mean indicating that the questions were easy for most students.

 

그림 1(c)은 대칭 분포 곡선의 중심에 분포된 대부분의 표시를 보여준다. 이것은 절반의 학생들이 평균보다 높은 점수를 받았고 절반의 학생들이 평균보다 낮은 점수를 받았다는 것을 의미한다. 이 경우 평균, 모드 및 중위수는 동일합니다. 이 정보를 바탕으로 모드, 중위 또는 평균에 SD의 추정치를 더하지 않으면 시험이 어려운지 쉬운지 판단하기 어렵다. 우리는 다른 곳에서 SPSS를 사용하여 이러한 통계를 계산하는 방법을 설명했습니다.
Figure 1(c) shows most marks distributed in the centre of a symmetrical distribution curve. This means that half the students scored greater than the mean and half less than mean. The mean, mode and median are identical in this situation. Based on this information, it is hard to judge whether the exam is hard or easy unless we obtain differences between the mode, median or mean plus an estimate of the SD. We have explained how to compute these statistics using SPSS elsewhere (Tavakol & Dennick ; Tavakol & Dennick 2012).


예를 들어, 그림 2의 두 분포를 고려해 볼 것을 요청합니다. 그림 2는 두 시험에서 학생들의 모의 점수를 나타냅니다.

As an example, we would ask you to consider the two distributions in Figure 2, which represent simulated marks of students in two examinations.

두 마크 분포 모두 평균이 50이지만 다른 패턴을 보입니다. A시험은 20점 이하와 90점 이상으로 점수가 다양하다. 반면에 B시험은 어느 한 극단에서나 거의 학생들이 보이지 않는다. 이 정보를 이용하여 A검사는 B검사에 비해 이질적이고 B검사는 A검사에 비해 균질하다고 할 수 있다.
Both the mark distributions have a mean of 50, but show a different pattern. Examination A has a wide range of marks, with some below 20 and some above 90. Examination B, on the other hand, shows few students at either extreme. Using this information, we can say that Examination A is more heterogeneous than Examination B and that Examination B is more homogenous than Examination A.


시험 데이터를 더 잘 해석하기 위해서는 각 분포에 대한 SD를 구해야 합니다. 예를 들어, 두 시험의 평균 점수가 67.0이고 각각 6.0과 3.0의 다른 SD를 사용하는 경우, 3.0의 SD를 사용하는 검사는 6.0의 SD를 사용하는 검사보다 더 균질하고 따라서 성능을 측정하는 데 더 일관성이 있다고 말할 수 있습니다. SD의 가치에 대한 추가적인 해석은 학생들의 점수가 평균에서 얼마나 벗어난지를 보여주는가 하는 것이다. 이것은 단순히 평균을 사용하여 총 학생 점수를 설명할 때의 오류 정도를 나타냅니다. SD는 정규 분포에서 개별 학생의 상대적인 위치를 해석하는 데도 사용할 수 있습니다. 우리는 그것을 다른 곳에서 설명하고 해석했다.
In order to better interpret the exam data, we need to obtain the SD for each distribution. For example, if the mean marks for the two examinations are 67.0, with different SDs of 6.0 and 3.0, respectively, we can say that the examination with a SD of 3.0 is more homogenous and hence more consistent in measuring performance than the examination with a SD of 6.0. A further interpretation of the value of the SD is how much it shows students’ marks deviating from the mean. This simply indicates the degree of error when we use a mean to explain the total student marks. The SD also can be used for interpreting the relative position of individual students in a normal distribution. We have explained and interpreted it elsewhere (Tavakol & Dennick )

고전적 문항 분석의 해석
Interpretation of classical item analysis

과학 분야에서는 많은 정확성과 객관성으로 변수를 측정하는 것이 가능하지만, 다양한 교란요인과 오류로 인해 주어진 시험에서 학생들의 성과를 측정할 때 이러한 정확성과 객관성을 얻기 더 어려워진다. 예를 들어, 시험이 학생에게 시행된다면, 그 학생은 그 또는 그녀의 점수에 영향을 미치는 측정 오류로 인해 다양한 경우에 다양한 점수를 받게 될 것이다. CTT에서 주어진 시험에서 학생의 점수는 학생의 [실제 점수]와 [무작위 오류]의 함수이며, 이는 때때로 변동될 수 있다. 시험에 영향을 미치는 무작위 오류가 존재하기 때문에, 우리는 학생들이 무한정 시험을 치르지 않는 한 학생의 실제 점수를 정확하게 결정할 수 없다. 모든 시험에서 평균 점수를 계산하면 무작위 오류가 제거되어 학생의 점수가 결국 실제 점수와 같아집니다. 하지만 무한정 시험을 보는 것은 현실적으로 불가능하다. 대신 우리는 무한한 수의 학생(실제로 큰 코호트!)에게 모든 학생의 점수에서 일반화된 표준 측정 오차(SME)를 추정할 수 있도록 일단 시험을 치르도록 요청한다. SME는 우리가 다른 곳에서 논의된 각 학생의 실제 점수를 추정할 수 있게 해준다.

In scientific disciplines, it is often possible to measure variables with a great deal of accuracy and objectivity but when measuring student performance on a given test due to a wide variety of confounding factors and errors, this accuracy and objectivity becomes more difficult to obtain. For instance, if a test is administrated to a student, he or she will obtain a variety of scores on different occasions, due to measurement errors affecting his or her score. Under CTT, the student's score on a given test is a function of the student's true score plus random errors (Alagumalai & Curtis ), which can fluctuate from time to time. Due to the presence of random errors influencing examinations, we are unable to exactly determine a student's true score unless they take the exam an infinite number of times. Computing the mean score in all exams would eliminate random errors resulting in the student's score eventually equalling the true score. However, it is practically impossible to take a test an infinite number of times. Instead we ask an infinite number of students (in reality a large cohort!) to take the test once allowing us to estimate a generalised standard error of measurement (SME) from all the students’ scores. The SME allows us to estimate the true score of each student which has been discussed elsewhere (Tavakol & Dennick ).

신뢰성.
Reliability

여기서 관찰된 점수가 참 점수와 오류 점수의 합으로 구성되듯이, 시험에서 관찰된 점수의 분산은 [참 점수]와 [오류 점수]의 분산의 합으로 이루어지며, 이는 다음과 같이 공식화될 수 있다.
It is worth reiterating here that just as the observed score is composed of the sum of the true score and the error score, the variance of the observed score in an examination is made up of the sum of the variances of the true score and the error score, which can be formulated as follows:



이제 테스트가 동일한 코호트에 여러 번 시행되었다고 상상해 보십시오. 각 개인에 대한 관측된 점수의 분산 사이에 불일치가 있으면 각 테스트에서 테스트의 신뢰성이 낮아집니다. 검정 신뢰성은 [관찰된 점수의 분산]에 대한 [참 점수의 분산]의 비율로 정의됩니다.

Now imagine a test has been administered to the same cohort several times. If there is a discrepancy between the variance of the observed scores for each individual, on each test, the reliability of the test will be low. The test reliability is defined as the ratio of the variance of the true score to the variance of the observed score:

이 경우 관측된 점수 분산에 대한 실제 점수 분산의 비율이 클수록 검정의 신뢰성이 높아집니다. 식 (2)에서 식 (1)의 분산(참 점수)을 대입하면 신뢰도는 다음과 같습니다.
Given this, the greater the ratio of the true score variance to the observed score variance, the more reliable the test. If we substitute variance (true scores) from Equation (1) in Equation (2), the reliability will be as follows:

그런 다음 신뢰도 지수를 다음과 같이 재정렬할 수 있습니다.
And then we can rearrange the reliability index as follows:

이 방정식은 단순히 [측정 오차] 원인과 [신뢰도] 사이의 관계를 보여줍니다. 예를 들어, 랜덤 오차가 없는 검정의 경우 신뢰도 지수는 1이지만 오차의 양이 증가하면 신뢰도 추정치는 감소합니다.
This equation simply shows the relationship between source of measurement error and reliability. For example, if a test has no random errors, the reliability index is 1, whereas if the amount of error increases, the reliability estimate will decrease.

테스트 신뢰성 향상
Increasing the test reliability


신뢰도를 추정하기 위해 사용되는 통계적 절차는 크론바흐의 알파와 쿠더-리처드슨 20 공식(KR-20)이다. 검정 신뢰도가 0.70보다 작으면 항목-총 상관 관계가 낮은 문제를 제거하는 것을 고려해야 할 수 있습니다. 예를 들어 표 1과 표 2의 네 가지 질문에 대한 시뮬레이션된 SPSS 출력을 만들었습니다.

The statistical procedures employed for estimating reliability are Cronbach's alpha and the Kuder–Richardson 20 formula (KR-20). If the test reliability was less than 0.70, you may need to consider removing questions with low item-total correlation. For example, we have created a simulated SPSS output for four questions in Tables 1 and 2.

표 1은 4개의 질문에 대한 크론바흐의 알파 0.72를 보여준다. 표 2는 'Cronbach's Alpha if Item deleted'라는 제목의 열이 있는 항목-총 상관 통계를 보여줍니다. (항목-총 상관관계는 개별 질문 점수와 총 점수 사이의 상관 관계입니다.)

Table 1 shows Cronbach's alpha for four questions, 0.72. Table 2 shows item-total correlation statistics with the column headed ‘Cronbach's Alpha if Item deleted’. (Item-total correlation is the correlation between an individual question score and the total score).


시험의 네 번째 문항은 총 항목 상관 관계가 -0.51로, 이 특정 문항에 대한 응답이 총점과 음의 상관 관계를 가지고 있음을 의미합니다. 이 문제를 시험에서 제거하면 나머지 세 문제 중 알파가 0.725에서 0.950으로 증가하여 시험을 훨씬 더 신뢰할 수 있습니다.
The fourth question in the test has a total-item correlation of −0.51 implying that responses to this particular question have a negative correlation with the total score. If we remove this question from the test, the alpha of the three remaining questions increase from 0.725 to 0.950, making the test significantly more reliable.

표 3과 4는 질문 4를 제거한 후의 출력 SPSS를 보여줍니다.
Tables 3 and 4 show the output SPSS after removing Question 4:

 

표 3과 표 4는 문제 4를 시험에서 제거하면 알파 값이 크게 증가하는 영향을 보여줍니다.

Tables 3 and 4 illustrate the impact of removing Question 4 from the test, which significantly increases the value of alpha.

그러나 이제 문제 2를 제거하면 시험에 대한 알파 값이 완벽해집니다. 즉, 1은 시험의 각 문제가 정확히 동일한 것을 측정해야 한다는 것을 의미합니다. 여러 문항이 동일한 구성을 측정하는 등 시험에 중복성이 있음을 시사하기 때문에 반드시 좋은 것은 아니다. 이 경우 신뢰성을 훼손하지 않고 테스트 길이를 단축할 수 있습니다. 신뢰성은 검정 길이의 함수이기 때문입니다. 항목이 많을수록 검정의 신뢰성이 높아집니다. 
However, if we now remove Question 2, the value of the alpha for the test will be perfect, i.e. 1, which means each question in the test must be measuring exactly the same thing. This is not necessarily a good thing as it suggests that there is redundancy in the test, with multiple questions measuring the same construct. If this is the case, the test length could be shortened without compromising the reliability (Nunnally & Bernstein ). This is because the reliability is a function of test length. The more the items, the more the reliability of a test.


Cronbach의 알파와 KR-20은 검정의 신뢰성을 추정하는 데 유용하지만, [측정 오차의 모든 원인을 하나의 값으로 통합]합니다(Mushquash & O'Connor). 실제 점수는 관찰된 점수와 [다양한 출처에서 파생된 오류]를 더한 것과 동일하다는 점을 기억하십시오. 각 오차원의 영향은 일반성 계수로 추정할 수 있으며, 이는 실제 점수 모델의 신뢰도 추정치와 유사하다. 나중에 우리는 알려진 대로 일반화 가능성 이론 또는 G 이론을 사용하여 측정 오류의 원인을 식별하고 줄이는 방법을 설명할 것이다. 또한 이전 가이드에서는 문항 난이도, 문항 변별도 및 포인트 바이시리얼 계수를 CTT의 관점에서 설명하고 해석하였다. 
Although Cronbach's alpha and KR-20 are useful for estimating the reliability of a test, they conflate all sources of measurement error into one value (Mushquash & O'Connor ). Recall that true scores equal observed scores plus errors, which is derived from a variety of sources. The influence of each source of error can be estimated by the coefficient of generalisability, which is similar to a reliability estimate in the true score model (Cohen & Swerdlik ). Later we will describe how to identify and reduce sources of measurement errors using generalisability theory or G-theory as it is known. What is more, in our previous Guide (Tavakol & Dennick 2012), we explained and interpreted item difficulty level, item discrimination index and point bi-serial coefficient in terms of CTT.

본 가이드에서는 이러한 개념을 항목 특성 매개 변수(항목 난이도 및 항목 변별력)를 이용한 IRT(Item Response Theory)와 래쉬 모델을 이용한 모든 질문에 대한 학생 능력/성과의 관점에서 설명하고 해석할 것이다.
In this Guide, we will explain and interpret these concepts in terms of Item Response Theory (IRT) using item characteristic parameters (item difficulty and item discrimination) and the student ability/performance to all questions using the Rasch model.

인자분석
Factor analysis

[선형 요인 분석]은 시험 개발자가 문제 수를 줄이고 중요한 문제가 시험에 포함되도록 하기 위해 널리 사용된다. 예를 들어, 심장병학 강좌 소집자는 심장병학을 가르치는 데 관련된 모든 의학 교사들에게 시험을 위한 10개의 문제를 제공하도록 요청할 수 있다. 이 경우 100개의 질문이 생성될 수 있지만, 이 모든 질문은 동일한 개념 집합을 테스트하는 것은 아닙니다. 따라서 문제들 간의 상관관계 패턴을 파악하면 시험의 기본 요소를 대상으로 하는 관련 문제를 발견할 수 있다. 요인은 일련의 질문 사이의 관계를 나타내는 구인이며, 질문이 요인과 상관관계가 있을 경우 생성됩니다. 요인 분석 언어에서, 이는 요인 '적재loadings'를 의미한다. 요인 분석이 수행된 후, 관련된 질문은 특정 명명된 구조를 나타내는 요인에 로드됩니다. 따라서 적재량이 낮은 질문은 제거하거나 수정할 수 있습니다. 
Linear factor analysis is widely used by test developers in order to reduce the number of questions and to ensure that important questions are included in the test. For example, the course convenor of cardiology may ask all medical teachers involved in teaching cardiology to provide 10 questions for the exam. This might generate 100 questions, but all these questions are not testing the same set of concepts. Therefore, identifying the pattern of correlations between the questions allows us to discover related questions that are aimed at the underlying factors of the exam. A factor is a construct which represents the relationship between a set of questions and will be generated if the questions are correlated with the factor. In factor analysis language, this refers to factor ‘loadings’. After factor analysis is carried out, related questions load onto factors which represent specific named constructs. Questions with low loadings can therefore be removed or revised.

테스트가 단일 특성을 측정하는 경우, [부하가 높은 요인 하나]만 관찰된 질문 관계를 설명하므로 테스트는 단일 차원입니다. 여러 요인이 확인되면 검정은 다차원적인 것으로 간주됩니다.
If a test measures a single trait, only one factor with high loadings will explain the observed question relationships and hence the test is uni-dimensional. If multiple factors are identified, then the test is considered to be multi-dimensional.

[선형 요인 분석]에는 [탐색적 요인]과 [확인적 요인]의 두 가지 주요 요소가 있습니다.

  • 탐색적 요인 분석(EFA)은 검정 내의 기본 구성 요소를 식별하고 이들 사이의 모형 관계를 가정합니다.
  • 확인적 요인 분석(CFA)은 모형이 새 데이터 집합을 사용하여 데이터에 적합한지 여부를 검증합니다. 아래에서는 각 방법에 대해 설명합니다.

There are two main components to linear factor analysis: exploratory and confirmatory.

  • Exploratory Factor Analysis (EFA) identifies the underlying constructs or factors within a test and hypothesises a model relationship between them.
  • Confirmatory Factor Analysis (CFA) validates whether the model fits the data using a new data set. Below, each method is explained.

탐색적 요인 분석
Exploratory factor analysis

EFA는 앞에서 설명한 바와 같이 문제 간의 관계를 식별하고, 테스트에서 주요 요소를 발견하는 데 널리 사용된다. 시험 문제를 수정하거나 특정 지식 영역의 문제를 선택하는 데 사용할 수 있습니다. 예를 들어, 심장학 검사에서 관상동맥 심장 질환의 임상 징후를 검사하는 데 관심이 있는 경우, 이 영역에 로드load되는 질문을 단순히 찾습니다. 다음 시뮬레이션 예제는 50명의 학생이 10개의 문제를 출제하는 시험을 사용하여 시험에서 문제를 개선하는 방법을 보여줍니다. 이를 통해 시험 문제를 수정하고 강화하는 방법을 시연하고 관심 영역에 대한 loadings를 계산할 수 있다. EFA는 요인 식별뿐만 아니라 각 질문에 대한 '커뮤널리티communality'도 계산합니다. communality의 개념을 이해하기 위해서는 EFA 접근법 내의 분산variance(점수의 변동성)을 설명할 필요가 있다.
EFA is widely used to identify the relationships between questions and to discover the main factors in a test as previously described. It can be used either for revising exam questions or choosing questions for a specific knowledge domain. For example, if in the cardiology exam we are interested in testing the clinical manifestations of coronary heart disease, we simply look for the questions which load on to this domain. The following simulated example, using an examination with 10 questions taken by 50 students, demonstrates how to improve the questions in an examination. This allows us to demonstrate how to revise and strengthen exam questions and to calculate the loadings on the domain of interest. As well as identifying the factors EFA also calculates the ‘communality’ for each question. To understand the concept of communality, it is necessary to explain the variance (the variability in scores) within the EFA approach.

우리는 이미 기술 통계로부터 변수의 분산을 계산하는 방법을 배웠다. 요인 분석 언어에서 각 질문의 분산은 두 부분으로 구성됩니다. 한 부분은 'common variance'이라고 하는 다른 질문과 공유할 수 있는 것이 있고, 나머지는 '오류' 또는 '랜덤 분산'이라고 하는 다른 질문과 공유할 수 없습니다. 문항에 대한 communality은 특정 요인 집합으로 설명되는 분산의 값으로, 범위는 0에서 1.00 사이입니다. 예를 들어 랜덤 분산이 없는 문항은 1.00의 공통성을 가지며, 다른 문항과 분산이 공유되지 않은 문항은 0.00의 공통성을 가집니다. 문항 9(표 5)에 대한 communality은 0.85로, 즉 질문 9의 분산의 85%가 요인 1과 요인 2로 설명되며, 질문 9의 분산의 15%는 다른 문항과는 공통점이 없습니다. 
We have already learnt from descriptive statistics how to calculate the variance of a variable. In the language of factor analysis, the variance of each question consists of two parts. One part can be shared with the other questions, called ‘common variance’; the rest may not be shared with other questions, called ‘error’ or ‘random variance’. The communality for a question is the value of the variance accounted for by the particular set of factors, ranging from 0 to 1.00. For example, a question that has no random variance would have a communality of 1.00; a question that has not shared its variance with other questions would have a communality of 0.00. The communality shown for Question 9 (Table 5) is 0.85, that is 85% of the variance in Question 9 is explained by factor 1 and factor 2, and 15% of the variance of Question 9 has nothing in common with any other question.

SPSS의 각 질문에 대한 공유 분산을 계산하기 위해 SPSS(SPSS)에서 다음 단계를 수행합니다. 메뉴에서 'Analyse', 'Dimension Reduction' 및 'Factor'를 각각 선택합니다. 그런 다음 모든 질문을 '변수' 상자로 이동합니다. 설명'을 선택한 다음 '초기 솔루션'과 '계수'를 각각 클릭합니다. 그런 다음 '회전'을 클릭합니다. 'Varimax'를 선택하고 'Continue'를 클릭한 다음 'OK'를 클릭합니다. 표 5에서, 우리는 SPSS 출력의 시뮬레이션 데이터를 함께 결합했다.
To compute the shared variances for each question in SPSS, the following steps are carried out in SPSS (SPSS ). From the menus, choose ‘Analyse’, ‘Dimension Reduction’ and ‘Factor’, respectively. Then move all questions on to the ‘Variables’ box. Choose ‘Descriptive’ and then click ‘Initial Solution’ and ‘Coefficients’, respectively. Then click ‘Rotation’. Choose ‘Varimax’ and click on ‘Continue’ and then ‘OK’. In Table 5, we have combined the simulated data of the SPSS output together.

표 5는 [두 가지 요인]이 나타났음을 보여줍니다. 요인 1은 질문 9, 2, 6, 10, 4, 1, 3에서 우수한 하중을 나타내고 요인 2는 질문 7, 8에서 우수한 하중을 나타내므로 이러한 항목이 요인 1, 2와 강한 상관 관계가 있음을 알 수 있습니다. 0.71보다 큰 값을 가진 하중은 우수한 것으로 간주된다는 점에 유의해야 한다(0.71 × 0.71 = 0.50 × 100. 즉, 항목과 요인 간의 공통 분산 또는 항목 내 변동의 50%를 요인의 변동으로 설명할 수 있으며, 또는 변동의 50%를 항목과 요인에 의해 설명될 수 있다), 0.63(40% 공통 변동)은 매우 양호하며, 0.45(20% 공통 분산)는 적당합니다. 0.32(공통 분산 10%)보다 작은 값은 불량으로 간주되고 전체 검정에 덜 기여하므로 이러한 값을 조사해야 합니다. 
Table 5 shows that two factors have emerged. Factor 1 demonstrates excellent loading with Questions 9, 2, 6, 10, 4, 1 and 3 and Factor 2 demonstrates excellent loading with Questions 7 and 8, indicating these items have a strong correlation with Factors 1 and 2.

  • It should be noted that loadings with values greater than 0.71 are considered excellent (0.71 × 0.71 = 0.50 × 100; i.e. 50% common variance between the item and the factor, or 50% of the variation in the item can be explained by the variation in the factor, or 50% of the variance is accounted for by the item and the factor),
  • 0.63 (40% common variance) very good,
  • 0.45 (20% common variance) fair.
  • Values less than 0.32 (10% common variance) are considered poor and less contribute to the overall test and they should be investigated (Comrey & Lee ; Tabachnick & Fidell ). 

표 5는 또한 h2로 표시된 열의 각 질문에 대한 communalities 을 보여준다. 예를 들어, 질문 2의 분산의 92%는 EFA 접근법에서 나타난 두 가지 요인에 의해 설명된다. 가장 낮은 communalities 은 질문 5에 대한 것이며, 분산의 8%를 기소하는 것은 이 질문으로 설명된다. 30% 미만의 낮은 값은 문제의 분산이 식별된 요인에 로드된 다른 질문과 관련이 없음을 나타냅니다. 표 5에서 질문 5는 커뮤니티 수치가 가장 낮고 요인 1 또는 2에 로드되지 않았으므로 이 질문을 수정하거나 폐기해야 합니다.

Table 5 also shows communalities for each question in the column labelled h2. For example, 92% of the variance in Question 2 is explained by the two factors that have emerged from the EFA approach. The lowest communality is for Question 5, indicting 8% of the variance is explained by this question. Low values of less than 30% indicate that the variance of the question does not relate to other questions loaded on to the identified factors. In Table 5, Question 5 has the lowest communality figure and has not loaded onto Factors 1 or 2, suggesting this question should be revised or discarded.


표 5는 또한 EFA 접근법에서 확인된 [두 가지 요인에 의해 설명되는 분산 값]을 보여줍니다. 분산의 0.47은 인자 1로, 분산의 0.23은 인자 2로 설명됩니다. 따라서 분산의 0.70은 모든 질문에 의해 설명됩니다. 그러나 질문 5를 삭제하면 총 분산이 0.78로 증가할 수 있습니다. 표 5에 대한 추가 해석은, 대다수의 문제가 인자 1에 실려서 시험의 구인 타당도에 대한 수렴 및 변별의 증거를 제공한다는 것이다.

  • 인자 1에 대한 부하가 높기 때문에 테스트가 [수렴]된다고 주장할 수 있습니다.
  • 또한 요인 1에 적재된 문제가 요인 2에 적재되지 않았으므로 시험은 [변별]됩니다.

즉, 요인 2는 요인 1과 구별되는 또 다른 구성/개념을 측정합니다. 두 개의 인자가 확인되었으므로 두 개의 서로 다른 구조를 측정하기 때문에 각 인자에 대한 Cronbach의 알파 계수를 계산하는 것이 적절할 것입니다. 세 가지 이상의 요인에 적재되는 문항은 조사가 필요하다는 점에 유의해야 한다.

Table 5 also shows the values of variance explained by the two factors that have been identified from the EFA approach; 0.47 of the variance is accounted for by Factor 1 and 0.23 of the variance is accounted for by Factor 2. Therefore, 0.70 of the variance is accounted for by all of the questions. However, if we delete Question 5, we can increase the total variance accounted for to 0.78. A further interpretation of Table 5 is that the vast majority of questions have been loaded on to Factor 1, providing evidence of convergence and discrimination for the construct validity of the test.

  • We can argue that the test is convergent as there are high loadings on to Factor 1.
  • The test is also discriminant as the questions that have loaded on to Factor 1 have not loaded on to Factor 2.

This means that Factor 2 measures another construct/concept which is discriminated from Factor 1. Because two factors have been identified, it would be appropriate to calculate Cronbach's alpha co-efficient for each factor because they are measuring two different constructs. It should be noted that items which load on more than two factors need to be investigated.

확인적 요인 분석
Confirmatory factor analysis

CFA의 기술은 심리 검사를 검증하는 데 널리 사용되었지만 시험 문제의 심리학적 특성을 평가하고 개선하는 데는 덜 사용되었다. EFA 접근 방식은 시험 문제가 어떻게 연관되거나 기저 요인 영역과 연결되는지 밝힐 수 있다. 예를 들어, EFA 접근 방식은 100문항 시험의 내부 구조가 신체 검사, 임상 추론 및 의사소통 기술 등 [세 가지 기저 영역]으로 구성되어 있음을 보여줄 수 있다. 식별된 요인의 수는 가설 모형, 즉 요인 구조 모형의 성분을 구성합니다. 위의 예제에서 모형을 3-요인 모형이라고 합니다. CFA 접근법은 잠재(기본) 요인을 확인하기 위해 [EFA에 의해 추출된 가설 모델]을 사용한다. 그러나 모형 적합을 확인하려면 순환 논리circular argument를 피하기 위해 [새 데이터 세트]를 사용해야 합니다. 예를 들어, 같은 시험을 다른 학생 그룹이나 비교 가능한 학생 그룹에 적용할 수 있다.
The technique of CFA has been widely used to validate psychological tests but has been less used to evaluate and improve the psychometric properties of exam questions. The EFA approach can reveal how exam questions are correlated or connected to an underlying domain of factors. For example, an EFA approach may show that the internal structure of a 100 question test consist of three underlying domains, say physical examination, clinical reasoning and communication skills. The number of factors identified constitutes the components of a hypothesised model, the factor structure model. In the above example, the model would be termed a three-factor model. The CFA approach uses the hypothesised model extracted by EFA to confirm the latent (underlying) factors. However, in order to confirm model fitting, a new data set must be used to avoid a circular argument. For example, the same test could be administered to a different but comparable group of students.

따라서 교육자는 먼저 EFA를 사용하여 모델을 식별하고 CFA를 사용하여 테스트해야 합니다. 또한 이 접근 방식을 통해 교육자는 시험 문제와 구성 요소(Floys & Widman)를 수정할 수 있습니다. 예를 들어, EFA가 병력 시험과 신체 검사 문제로 구성된 시험에서 2-요인 모델을 공개했다고 가정합시다. 연구자는 문제의 심리학적 특성을 측정하고 모형의 전반적인 적합성을 검정하여 시험의 타당성과 신뢰성을 향상시키려 합니다. 이것은 가설 모델에 새로 입력된 샘플 데이터의 적합도를 결정하는 구조 방정식 모델링(SEM)을 사용하여 달성될 수 있다. [모형 적합성model fit]은 카이-제곱 검정 및 기타 적합 지수를 사용하여 평가됩니다. 다른 통계 가설 검정 절차와 달리 카이-제곱 값이 [유의하지 않으면], 새 데이터가 적합하고, 모형이 확인된 것이다. 그러나 카이-제곱의 값은 표본 크기를 늘거나 줄어드는 것에 달라지는 함수이므로 [다른 적합 지수]들도 조사해야 합니다. 이러한 지수는 비교 적합 지수(CFI)근삿값 평균 제곱 오차(RMSEA)입니다.

  • CFI 값이 0.90보다 크면 검사 데이터에 대해 심리적으로 허용 가능한 적합도를 나타냅니다.
  • RMSEA 값이 0.05보다 작아야 적합성이 양호합니다RMSEA가 0이면 모형 적합이 완벽하다는 것을 나타냅니다.
  • CFA는 SAS, LISREL, AMOS 및 Mplus와 같은 다수의 인기 있는 통계 소프트웨어 프로그램에 의해 실행될 수 있다는 점에 유의해야 한다.

Therefore, educators must first identify a model using EFA and test it using CFA. This approach also allows educators to revise exam questions and the factors underlying their constructs (Floys & Widaman ). For example, suppose EFA has revealed a two-factor model from an exam consisting of history-taking and physical examination questions. The researcher wishes to measure the psychometric characteristics of the questions and test the overall fit of the model to improve the validity and reliability of the exam. This can be achieved by the use of structural equation modelling (SEM) which determines the goodness-of-fit of the newly input sample data to the hypothesised model. The model fit is assessed using Chi-square testing and other fit indices. In contrast to other statistical hypothesis testing procedures, if the value of Chi-square is not significant, the new data fit and the model is confirmed. However, as the value of Chi-square is a function of increasing or decreasing sample size, other fit indices should also be investigated (Dimitrov ). These indices are the comparative fit index (CFI) and the root mean square error of approximation (RMSEA).

  • A CFI value of greater than 0.90 shows a psychometrically acceptable fit to the exam data.
  • The value of RMSEA needs to be below 0.05 to show a good fit (Tabachnick & Fidell ). A RMSEA of zero indicates that the model fit is perfect.
  • It should be noted that CFA can be run by a number of popular statistical software programmes such as SAS, LISREL, AMOS and Mplus.

이 논문의 목적을 위해, 우리는 그것의 용이한 사용을 위해 AMOS(모멘트 구조의 분석)를 선택한다. AMOS 소프트웨어 프로그램은 모형을 쉽게 만들고 카이-제곱 값과 적합 지수를 계산할 수 있습니다. 위의 예에서, 8문항의 시험은 역사 시험과 신체 검사라는 두 가지 요소를 가지고 있으며, 이 8문항의 분산은 이 두 가지 높은 상관관계 요인에 의해 설명될 수 있다. 테스트 개발자는 AMOS에서 2-요인 모델(경로 다이어그램)을 그려 모델을 테스트합니다(그림 3). 모델의 매개변수를 추정하기 전에 '보기'를 클릭하고 '분석 특성'을 클릭한 다음 '최소화 기록', 표준화 추정치, '다중 상관 제곱' 및 '수정 지수'를 클릭합니다. 견적을 실행하려면 맨 위의 메뉴에서 '분석'을 클릭한 다음 '견적 계산'을 클릭합니다.

For the purpose of this article, we choose AMOS (Analysis of Moment Structures) for its use of ease. The AMOS software program can easily create models and calculate the value of Chi-square as well as the fit indices. In the above example, a test of 8 questions has two factors, history-taking and physical examination and the variance of these eight exam questions can be explained by these two highly correlated factors. The test developer draws the two-factor model (the path diagram) in AMOS to test the model (Figure 3). Before estimating the parameters of the model, click on the ‘view’ and click on ‘Analysis Properties’ and then click on ‘Minimization history’, Standardised estimates, ‘Squared multiple Correlations’ and ‘Modification indices’. To run the estimation, from the menu at the top, click on ‘Analyze’, then click on ‘Calculate Estimates’.

 

출력은 표 6에 나와 있습니다. SEM은 질문과 요인 간의 계산된 상관 관계의 기울기와 절편을 계산합니다. CTT와 비교하자면,

  • 절편은 항목 난이도 지수와 유사하며
  • 기울기(표준화된 회귀 가중치/계수)는 변별도와 유사합니다.

The output is given in Table 6. SEM calculates the slopes and intercepts of calculated correlations between questions and factors. From a CTT,

  • the intercept is analogous to the item difficulty index and
  • the slope (standardised regression weights/coefficients) is analogous to the discrimination index.

 

표 6은 병력탐구 1번 문항이 쉬웠고, 신체검사에서 3번 문항이 어려웠다는 것을 알 수 있다. 표 6은 또한 병력 시험 문제 4가 전체 병력시험 점수에 기여하지 않는다는 것을 보여준다. 검사 데이터에 대한 적합 모형의 정도를 평가하기 위해 추가 분석이 수행되었습니다.
Table 6 shows that Question 1 in history-taking and Question 3 in physical examination were easy (intercept = 0.97) and hard (0.08), respectively. Table 6 also shows that Question 4 in history-taking is not contributing to overall history-taking score (slope = −0.03). Further analysis was conducted to assess degree of fit model to the exam data.

표 7에 초점을 맞추면 카이-제곱 값에 대한 유의성 결여(p = 0.49)는 새 표본에서 2-요인 모형에 대한 지지를 의미합니다. 표 7의 CFI 및 RMSEA 값을 모두 검토하면 2-요인 모형이 새 표본에 대한 검사 데이터에 가장 적합하다는 것이 명백합니다.
Focusing on Table 7, the absence of significance for the Chi-square value (p = 0.49) implies support for the two- factor model in the new sample. In reviewing values of both CFI and RMSEA in Table 7, it is evident that the two-factor model represents a best fit to the exam data for the new sample.



검사의 병력 청취 성분과 신체 검사 성분 사이의 관계에 대한 추가 증거는 가정된 2-요인 모델을 뒷받침하는 두 요인 간의 0.70 상관관계를 계산함으로써 드러난다. AMOS는 '출력 다이어그램 보기' 버튼을 클릭하여 요인/구성 요소 간의 상관 관계를 표시합니다. 또한 '텍스트 출력'에서 상관 관계 추정치를 볼 수 있습니다. 메인 메뉴에서 보기를 선택한 다음 '텍스트 출력'을 클릭합니다.

Further evidence for the relationship between the history-taking and physical examination components of the test is revealed by the calculation of a 0.70 correlation between the two factors, supporting the hypothesised two-factor model. It should be noted that AMOS will display the correlation between factors/components by clicking the ‘view the output diagram’ button. You can also view correlation estimates from ‘text output’. From the main menu, choose view and then click on ‘text output’.

일반화 가능성 이론 분석
Generalisability theory analysis

[신뢰성]은 학생들의 지식과 역량을 일관되게 측정하는 [테스트의 능력]과 관련이 있다는 점을 기억하시기 바랍니다. 예를 들어, 같은 항목과 같은 조건을 가진 학생들이 다른 경우에 같은 시험을 다시 본다면, 결과는 거의 같아야 한다. CTT에서 항목 및 조건은 획득된 점수와 관련된 측정 오류의 원인일 수 있습니다. KR-20 또는 크론바흐의 알파와 같은 신뢰성 추정치는 이러한 문항과 조건(시험의 측면facet이라고도 함)과 관련된 측정 오류의 잠재적 원인을 식별할 수 없으며, 각각을 구별할 수 없다.

We would ask you to recall that reliability is concerned with the ability of a test to measure students' knowledge and competencies consistently. For example, if students are re-examined with the same items and with the same conditions on different occasions, the results should be more or less the same. In CTT, the items and conditions may be the causes of measurement errors associated with the obtained scores. Reliability estimates, such as KR-20 or Cronbach's alpha, cannot identify the potential sources of measurement error associated with these items and conditions (also known as facets of the test) and cannot discriminate between each one. 

그러나 Lee J. Cronbach와 동료들이 개발한 일반화가능도 이론 또는 G-이론이라고 불리는 CTT의 확장은 테스트 생성자가 실제 점수를 해석하기 위한 측정 오류의 원천에 대한 더 명확한 그림을 얻을 수 있도록 이러한 측면을 인식, 추정 및 분리하려고 시도한다. 예를 들어, G이론을 사용하여 OSCE 검사 결과에 대한 단일 분석으로 모든 측면을 추정할 수 있으며, 잠재적으로 시험에서 오류를 발생시킬 수 있다. 측정 오차의 각 면에는 아래에 설명된 분산 분석(ANOVA) 절차를 통해 계산되는 분산 성분variance component이라는 값이 있습니다. 이러한 분산 성분variance component은 다음으로 시험의 신뢰성과 같으며 모든 측면에 걸쳐 학생들의 평균 점수를 일반화할 수 있는 G 계수를 계산하는 데 사용됩니다.
However, an extension of CTT called Generalisability Theory or G-theory, developed by Lee J. Cronbach and colleagues (Cronbach et al. ), attempts to recognise, estimate and isolate these facets allowing test constructors to gain a clearer picture of sources of measurement error for interpreting the true score. One single analysis of, for example, the results of an OSCE examination, using G-theory can estimate all the facets, potentially producing error in the test. Each facet of measurement error has a value associated with it called its variance component, calculated via an analysis of variance (ANOVA) procedure, described below. These variance components are next used to calculate a G-coefficient which is equivalent to the reliability of the test and also enables one to generalise students’ average score over all facets.

예를 들어 OSCE가 SP, 다양한 검사자 및 다양한 항목을 사용하여 12개 스테이션에서 학생들의 성과를 평가했다고 가정해 보십시오. [평가의 한 측면]으로서 SP, 심사관 및 항목과 이들의 상호작용(예: SP와 항목 간의 상호작용)이 고려할 수 있다. 학생이 OSCE에서 얻은 점수는 이러한 [측정 오류의 측면]에 영향을 받기 때문에 평가자는 각 측면에 의해 야기되는 오류의 양을 추정해야 한다. 또한, 우리는 학생들이 시험을 이용하여 그들의 시험 수행에 대한 최종 결정을 내리는 것을 조사한다. 이 결정을 내리기 위해서, 우리는 그 점수에 근거하여 각 학생에 대한 시험 점수를 일반화할 필요가 있다. 이것은 평가자들이 좋은 결정을 내리기 위한 수단으로서 점수의 신뢰성과 신뢰성을 보장해야 한다는 것을 나타낸다. 따라서 테스트에서 얻은 관측(취득) 점수와 관련된 오류의 구성을 조사할 필요가 있다. 그런 다음 G-이론 분석은 확인된 오류의 원인을 최소화하기 위해 테스트 생성자에게 유용한 정보를 제공할 수 있다. 이제 분산 성분에서 G-계수를 계산하는 방법을 설명하겠습니다.
For example, imagine an OSCE has used SPs, a range of examiners and various items to assess students' performance on 12 stations. SPs, examiners and items and their interactions (e.g. interaction between SPs and items) are considered as facets of the assessment. The score that the student obtains from the OSCE will be affected by these facets of measurement error and therefore the assessor should estimate the amount of error caused by each facet. Furthermore, we examine students using a test to make a final decision regarding their performance on the test. To make this decision, we need to generalise a test score for each student based on that score. This indicates that assessors should ensure the credibility and trustworthy of the score as means to making a good decision (Raykov & Marcoulides ). Therefore, the composition of errors associated with the observed (obtained) scores that gained from a test need to be investigated. G-theory analysis can then provide useful information for test constructors to minimise identified sources of error (Brennan ). We will now explain how to calculate the G-coefficient from variance components.

G-계수 계산
G-coefficient calculation

Facet의 분산 성분에서 G-계수를 계산하기 위해 검정 분석가는 전통적으로 ANOVA 절차를 사용합니다. ANOVA은 검사에 존재하는 [총 분산]을 측정 오차의 원인인 [두 개 이상의 성분]으로 분할하는 통계적 절차입니다. 조사자는 분산 분석 결과(예: SP, 항목, 평가자 등)에서 각 변동 소스의 계산된 평균 제곱을 사용하여 분산 성분을 결정한 다음 이러한 값에서 G-계수를 계산합니다.
To calculate the G-coefficient from variance components of facets, test analysers traditionally use the ANOVA procedure. ANOVA is a statistical procedure by which the total variance present in a test is partitioned into two or more components which are sources of measurement error. Using the calculated mean square of each source of variation from the ANOVA output (e.g. SPs, items, assessors, etc.), investigators determine the variance components and then calculate the G-coefficient from these values.

그러나 SPSS 및 통계 분석 시스템(SAS)과 같은 기타 통계 패키지를 통해 이제 테스트 데이터에서 직접 분산 성분을 계산할 수 있습니다. 이제 G-계수를 계산하기 위해 SPSS에서 직접 분산 성분을 얻는 방법을 설명하겠습니다. 사용되는 절차는 테스트의 facet 수에 따라 달라집니다. 아래 설명된 바와 같이 단일 패싯 및 다중 패싯 설계가 있습니다.
However, SPSS and other statistical packages like the Statistical Analysis System (SAS) now allow us to calculate the variance components directly from the test data. We will now illustrate how to obtain the variance components from SPSS directly for calculating the G-coefficient. The procedure used varies according to the number of facets in the test. There are single facet and multiple facet designs as described below.

단면 설계
Single facet design

[단일 facet 설계]는 테스트에서 측정 오류의 단일 소스만 검사하지만 실제로는 다른 요소가 존재할 수 있습니다. 예를 들어, OSCE 시험에서 오류의 원인으로서 검사자의 영향에 초점을 맞추고자 할 수 있다. G이론에서, 이를 일면 '학생(들)과 시험자(e)가 교차하는' 설계라고 한다: (s × e). 3명의 검사관이 5개 항목의 1-5 체크 리스트를 사용하여 3개의 서로 다른 스테이션에서 임상 학생의 코호트를 독립적으로 평가하는 OSCE를 고려해보자. 따라서 총 점수 범위는 5에서 25까지이며, 더 높은 표시는 각 스테이션에서 더 높은 수준의 성능을 나타냅니다. G이론을 이용하여 검사자들이 어느 정도의 측정 오차를 발생시키는지 알 수 있다. 그림 4의 SPSS 데이터 편집기에는 설명 목적으로 10명의 학생과 3명의 시험관만이 제시되어 있다.

A single facet design examines only a single source of measurement error in a test although in reality others may exist. For example, in an OSCE examination, we might like to focus on the influence of examiners as sources of error. In G-theory, this is called a one-facet ‘student (s) crossed-with-examiner (e)’ design: (s × e). Consider an OSCE in which three examiners independently rate a cohort of clinical students on three different stations using a 1–5 check list of 5 items. The total mark can therefore range from 5 to 25, with higher mark suggesting a greater level of performance in each station. Using G-theory, we can find out what amount of measurement error is generated by the examiners. For illustrative purpose, only 10 students and the three examiners are presented in the Data Editor of SPSS in Figure 4.

 

분석하기 전에 데이터를 재구성해야 합니다. 이를 위해 화면 상단의 데이터 메뉴에서 '구조조정'을 클릭하고 해당 지침을 따른다. 그림 5에는 재구성된 데이터 형식이 나와 있습니다.
Before analysing, the data needs to be restructured. To this end, from the data menu at the top of the screen, one clicks on ‘restructure’ and follows the appropriate instructions. In Figure 5, the restructured data format is presented.

 


[분산 성분]을 얻기 위해 다음 단계를 수행합니다.
To obtain the variance components, the following steps are carried out:

메뉴에서 '분석'과 '일반 선형 모형'을 각각 선택합니다. 그런 다음 '분산 구성 요소'를 클릭합니다. '점수'를 클릭한 다음 화살표를 클릭하여 '종속 변수'로 표시된 상자로 '점수'를 이동합니다. 학생과 시험관을 클릭하여 '임의 요인'으로 이동합니다. '분산 추정치'가 나타나면 확인을 클릭하면 결과에 대한 각 분산 소스의 기여도가 표 8과 같이 표시됩니다.

From the menus chooses ‘Analyse’, ‘General Linear Model’, respectively. Then click on ‘variance components’. Click on ‘Score’ and then click on the arrow to move ‘Score’ into the box marked ‘dependent variable’. Click on student and examiner to move them into ‘random factors’. After ‘variance estimates’ appears, click OK and the contribution of each source of variance to the result is presented as shown in Table 8.

표 8은 학생과 검사자와 관련된 추정 분산 성분이 각각 10.144와 1.578임을 보여줍니다. 전체 분산의 백분율로 표현하면 40.00%는 학생, 6.20%는 평가자에 의한 것임을 알 수 있다. 그러나 [학생들의 분산]은 학생 코호트 내에서 이러한 변동이 예상되기 때문에 측정 오차의 한 측면으로 간주되지 않으며, G이론 측면에서는 '측정 대상'(Mushquash & O'Connor)으로 불린다. 우리의 분석에 중요한 것은, 조사자들이 전체 변동성의 6.20%를 생성했다는 것을 나타내며, 이는 상당히 낮은 값으로 간주된다. 값이 높을수록 검사자가 시험에 미치는 영향에 대한 우려가 생깁니다. 잔차 분산은 특정 원인에 기인하지 않는 분산의 양이지만 서로 다른 면과 검정 측정 대상 사이의 교호작용과 관련이 있습니다. 이 예제에서는 분산의 53.80%인 13.656을 이 인자로 설명합니다.
Table 8 shows that the estimated variance components associated with student and examiner are 10.144 and 1.578, respectively. Expressed as a percentage of the total variance, it can be seen that 40.00 % is due to the students and 6.20 % to the examiners. However, the variance of the students is not considered a facet of measurement error as this variation is expected within the student cohort and in terms of G-theory, it is called the ‘object of measurement’ (Mushquash & O'Connor ). Importantly for our analysis, the findings indicate that the examiners generated 6.20% of the total variability, which is considered a reasonably low value. Higher values would create concern about the effect of the examiners on the test. The residual variance is the amount of variance not attributed to any specific cause but is related to the interaction between the different facets and the object of measurement of the test. In this example, 13.656 or 53.80% of the variance is accounted for by this factor.


표 8의 결과를 바탕으로, 우리는 이제 일반화 계수를 계산할 수 있는 위치에 있다. 이 경우 G-계수는 [학생 분산 성분]의 비율로 정의됩니다(표시됨). 
On the basis of the findings of Table 8, we are now in a position to calculate the generalisability coefficient. In this case, the G-coefficient is defined as the ratio of the student variance component (denoted 

) [학생 분산 성분과 잔차 분산의 합]에 대해 
) to the sum of the student variance component and the residual variance (denoted 

)를 심사관 수(k)로 나누고 다음과 같이 작성한다.
) divided by the number of examiners (k) (Nunnally and Bernstein ) and written as follows:

위에서 값을 삽입하면 다음과 같은 이점이 있습니다.
Inserting the values from above, this gives:

 

G-계수는 전통적으로 λ 2로 표현되며, 0에서 1.0 사이의 값을 갖는 잘 알려진 신뢰도 계수의 상대이다. (위에서 설명한 단일 면 설계의 G-계수는 (비이분성 데이터의 경우) 크론바흐의 알파 계수 및 (이분성 데이터의 경우) 쿠더-리처드슨 20과 동일하다는 점에 주목할 필요가 있다.) G-계수 값의 해석은 분산 성분에서 계산된 여러 오차원을 고려하여 검정의 신뢰도를 나타낸다는 것입니다. G-계수의 값이 높을수록, 우리는 학생들의 점수에 더 많이 의존할 수 있고(일반화할 수 있음) 연구 면study facet의 영향을 덜 받았다. 위의 예제에서 G-계수는 상당히 높은 값을 가지며 검사자에 대한 분산 성분은 낮습니다. 이는 수험생들이 채점에 큰 편차가 없었음을 보여주며, 학생들의 점수에 대한 자신감을 가질 수 있음을 보여준다.

The G-coefficient, traditionally depicted as ρ 2, is the counterpart of the well-known reliability coefficient with values ranging from 0 to 1.0. (It is worth noting that the G-coefficient in the single facet design described above is equal to Cronbach's alpha coefficient (for non-dichotomous data) and to Kuder–Richardson 20 (for dichotomous data). The interpretation of the value of the G-coefficient is that it represents the reliability of the test taking into account the multiple sources of error calculated from their variance components. The higher the value of the G-coefficient, the more we can rely on (generalise) the students’ scores and the less influence the study facets have been. In the above example, the G-coefficient has a reasonably high value and the variance component for examiners is low. This shows that the examiners did not have significant variation in scoring students and that we can have confidence in the students’ scores.

다면 디자인
A multi-facet design

OSCE 시험에는 심사관 외에도 고려해야 할 [여러 가지 잠재적 facet]이 분명히 있다. 예를 들어, 스테이션 수, SP 수 및 OSCE 체크리스트의 항목 수. 이제 이전 예에서 다면 설계 건물에 대한 분산 성분과 G-계수를 계산하는 방법을 설명하겠습니다. 이제 세 개의 스테이션 각각에는 SP와 학생 개개인의 종합 점수로 이어지는 5개 문항 체크리스트가 있습니다. 여기서 [시험관, 스테이션, SP 및 문항]은 학생 성과에 영향을 미칠 수 있으므로 측정 오류의 한 단면이다.
Clearly in an OSCE examination, there are a number of other potential facets that need to be taken into consideration in addition to the examiners. For example, the number of stations, the number of SPs and the number of items on the OSCE checklist. We will now explain how to calculate the variance components and a G-coefficient for a multi-facet design building on the previous example. Each of three stations now has a SP and a 5-item checklist leading to an overall score for each student. Here, examiners, stations, SPs and items can affect the student performance and hence are facets of measurement error.


그러나 현재 오류의 원인으로 숫자 항목의 영향에 관심이 있기 때문에 각 항목(i), 각 학생(s), 각 스테이션(st), 각 SP(sp) 및 각 검사자(e)에 대한 점수를 입력해야 합니다. 검사 데이터를 SPSS에 입력하고 재구성한 후 앞서 설명한 대로 분산 성분 분석을 수행합니다. 표 9는 OCSE 결과의 잠재적 측정 오류 소스에 대한 분산 성분의 가상 결과를 보여줍니다.
However, because we are now interested in the influence of the number items as a source of error, we need to input the score for each item (i), for each student (s), for each station (st), for each SP (sp) and for each examiner (e). After entering exam data into SPSS and restructuring it, analysis of variance components is carried out as described before. Table 9 shows the hypothetical results of variance components for potential sources of measurement error in the OCSE results.

표 9는 측정 오류의 원인 중 59.16%, 16.37%, 15.04가 각각 학생, 항목 및 검사자 간의 상호작용, 학생과 검사자 및 검사자 간의 상호작용에 의해 발생함을 보여준다. 다른 면들의 조합들 사이의 잔차 분산이 부족하다는 것은 이러한 상호작용으로 인해 학생 점수가 변동할 수 없으며 결과적으로 측정 오차로 이어지지 않는다는 것을 나타낸다. 표 9의 검사관에 대한 분산 성분 값(0.06)은 표 8(1.57)의 값과 다릅니다. 다면 행렬을 만들 때 모든 관측소에 대한 총점보다는 학생들의 개별 항목 점수를 사용하기 때문입니다. 이러한 결과는 또한 각 시험관이 학생에게 부여한 실제 점수(2.88%)에 대해 거의 이견이 없음을 나타낸다. 표 8에 나와 있는 각 면과 관련된 수치와 분산 성분의 값을 다음 방정식에 삽입할 수 있습니다.
Table 9 shows that 59.16 %, 16.37 % and 15.04 of the sources of measurement error are generated by interactions between student, item and examiner, interactions between student and examiner and student, respectively. The lack of residual variance between other combinations of facets indicates that student scores cannot fluctuate owing to these interactions and consequently they do not lead to any measurement error. The value for the variance component for examiners (0.06) in Table 9 differs from the value in Table 8 (1.57) because in creating the multi-facet matrix, we are using individual item scores from students rather than their total mark for all stations. These findings also indicate that there is little disagreement about the actual scores given to student by each examiner (2.88%). We can insert the values of the variance components and the numbers associated with each facet shown in Table 8 into the following equation:

 

분산 성분의 0 값은 삽입되지 않으므로 SP 및 스테이션을 제외합니다.

Zero values of variance components are not inserted, thus excluding SPs and stations.

이 예에서 G-계수는 높고 패싯의 분산 성분은 낮으므로 OSCE의 신뢰성은 매우 우수합니다. 특정 측면에 대해 더 높은 분산 성분 값이 발견되면 더 자세히 조사해야 합니다. 이로 인해 검사관에 대한 교육이 개선되거나 검사 목록 또는 스테이션 수의 항목을 수정할 수 있습니다. 이러한 가상 데이터로 나타난 높은 G 계수를 고려할 때, 우리는 원칙적으로 G의 상당히 높은 값을 유지하면서 개별 면에 대한 k의 값을 줄일 수 있으며, 따라서 OSCE 시험의 신뢰성을 유지할 수 있다. OSCE의 현실 세계에서, 이것은 단순화와 OSCE 심사 비용의 감소로 이어질 수 있다. Cronbach의 알파 통계량은 G에 대해 허용 가능한 값에 대해 0.7에서 0.95 사이의 다양한 견해를 가지고 있다. 검사 요인들이 측정 오류의 근원에 어떻게 영향을 미칠 수 있는지 보기 위해 일반화 방정식을 조작하는 이러한 능력은 [의사결정 연구 또는 D-연구]의 핵심에 있다. 따라서 G-이론과 D-연구는 Cronbach의 알파 통계를 측정하는 것만으로 숨겨진 검사에서 발생하는 다양한 과정에 대한 더 큰 통찰력을 제공한다. 이를 통해 평가자는 훨씬 더 구체적이고 증거에 기반한 방식으로 평가의 질을 향상시킬 수 있습니다.
In this example, the G-coefficient is high and the variance components of the facets are low, hence the reliability of the OSCE is very good. If higher values of variance components are found for particular facets, then they need to be examined in more detail. This might lead to better training for examiners or modifying items in checklists or the number of stations. Given the high G-coefficient shown with these hypothetical data, we could in principle reduce the values of k for individual facets whilst maintaining a reasonably high value of G and hence maintaining the reliability of the OSCE exam. In the real world of OSCEs, this could lead to simplifications and a reduction in the cost of OSCE examining. As for Cronbach's alpha statistic, there are different views concerning acceptable values for G ranging from 0.7 to 0.95 (Tavakol and Dennick , b). This ability to manipulate the generalisability equation in order to see how examination factors can influence sources of measurement error and hence reliability lies at the heart of decision study or D-study (Raykov & Marcoulides ). Thus G-theory and D-study provide a greater insight into the various processes occurring in examinations, hidden by merely measuring Cronbach's alpha statistic. This enables assessors to improve the quality of assessments in a much more specific and evidence-based way.

IRT와 래쉬 모델링
The IRT and Rasch modelling

테스트 생성자는 전통적으로 [CTT 모델]을 사용하여 테스트 테스트의 신뢰성을 정량화했습니다. 예를 들어, 항목 분석(항목 난이도 및 항목 식별), 전통적인 신뢰도 계수(예: KR-20 또는 Cronbach의 알파), 항목-합계 상관 관계 및 요인 분석을 사용하여 검정의 신뢰성을 조사합니다. 우리는 방금 어떻게 G 이론을 사용하여 신뢰도를 모니터링하고 개선하기 위해 검사 조건을 보다 정교한 분석을 할 수 있는지 보여주었다. CTT는 시험과 그 오류에 초점을 맞추지만, [학생들의 능력]이 시험 및 문항과 어떻게 상호작용하는지에 대해서는 거의 언급하지 않는다. 한편, IRT의 목적은 문항의 질을 향상시키기 위해 [학생의 능력]과 [문항의 난이도] 사이의 관계를 측정하는 것이다. 이러한 유형의 분석은 컴퓨터 적응 테스트(CAT)를 위한 더 나은 질문 뱅크를 구축하는 데도 사용될 수 있다.
Test constructors have traditionally quantified the reliability of exam tests using the CTT model. For example, they use item analysis (item difficulty and item discrimination), traditional reliability coefficients (e.g. KR-20 or Cronbach's alpha), item-total correlations and factor analysis to examine the reliability of tests. We have just shown how G-theory can be used to make more elaborate analyses of examination conditions with a view to monitoring and improving reliability. CTT focuses on the test and its errors but says little about how student ability interacts with the test and its items (Raykov & Marcoulides ). On the other hand, the aim of IRT is to measure the relationship between the student's ability and the item's difficulty level to improve the quality of questions. Analyses of this type can also be used to build up better question banks for Computer Adaptive Testing (CAT).

해부학 시험을 치르는 학생을 생각해 보세요. 학생이 항목 1을 올바르게 답할 수 있는 확률은 학생의 해부학적 능력과 항목의 난이도에 영향을 받습니다. 학생이 해부학 지식 수준이 높으면 1번 항목에 정답을 맞출 확률이 높다. 난이도가 낮은 항목(즉, 어려운 항목)의 경우 학생이 해당 항목을 올바르게 답할 확률은 낮습니다. IRT는 학생 시험 점수와 항목 난이도, 항목 판별, 항목 공정성, 추측 및 성별 또는 학년와 같은 기타 학생 속성과 같은 요인(파라미터)을 사용하여 이러한 관계를 분석하려고 시도한다. IRT 분석에서는 위의 parameters로 학생 능력의 교정을 나타내는 항목 맵뿐만 아니라 학생 능력과 올바른 항목 응답 확률 사이의 관계를 보여주는 그래프가 생성된다. 또한 나중에 설명하는 항목 및 학생에 대한 '적합' 통계를 보여 주는 표입니다.
Consider a student taking an exam in anatomy. The probability that the student can answer item 1 correctly is affected by the student's anatomy ability and the item's difficulty level. If the student has a high level of anatomical knowledge, the probability that he/she will answer the item 1 correctly is high. If an item has a low index of difficulty (i.e. a hard item), the probability that the student will answer the item correctly is low. IRT attempts to analyse these relationships using student test scores plus factors (parameters) such as item difficulty, item discrimination, item fairness, guessing and other student attributes such as gender or year of study. In an IRT analysis, graphs are produced showing the relationship between student ability and the probability of correct item responses, as well as item maps depicting the calibrations of student abilities with the above parameters. Also tables showing ‘fit’ statistics for items and students, to be described later.

다양한 형태의 IRT가 도입되었다. [항목 난이도]와 [학생 능력] 간의 관계만을 살펴보려면 단일 모수 로지스틱 IRT(1PL)를 사용한다. 이것은 1960년대에 이것을 추진했던 덴마크의 통계학자를 기리기 위해 라쉬 모델이라고 불린다. 래쉬 모형은 [개념적 능력]과 [항목 난이도]를 고려하여 학생이 문항에 올바르게 답할 확률을 평가합니다. 문항 변별도, 문항 난이도, 성별 또는 연구 년도와 같은 추가 매개 변수가 포함될 수 있는 경우 2-모수 IRT(2PL) 또는 3-모수 IRT(3PL)도 사용할 수 있다. 이 기사의 목적을 위해, 우리는 1PL 또는 래쉬 모델링에 집중할 것이다.
A variety of forms of IRT have been introduced. If we wish to look at the relationship between item difficulty and student ability alone, we use the one-parameter logistic IRT (1PL). This is called the Rasch model in honour of the Danish statistician who promoted it in the 1960s. The Rasch model assesses the probability that a student will answer an item correctly given their conceptual ability and the item difficulty. Two-parameter IRT (2PL) or three-parameter IRT (3PL) are also available where further parameters such as item discrimination, item difficulty, gender or year of study can be included. For the purposes of this article, we are going to concentrate on 1PL or Rasch modelling.


[래쉬 모델링]에서 학생들의 능력 점수 및 항목 난이도의 값은 해석을 쉽게 하기 위해 [표준화]된다.

  • 평균을 표준화하면 학생 능력 수준은 0으로, SD는 1로 설정된다.
  • 마찬가지로 평균 문항 난이도는 0으로, SD는 1로 설정된다. 

따라서 표준화 후 평균 점수 0점을 받은 학생은 평가 대상 항목에 대한 평균 능력을 갖게 된다. 1.5의 점수로, 학생의 능력은 평균보다 SD가 높은 1.5이다. 마찬가지로 난이도가 0인 항목은 평균 항목으로 간주되고 난이도가 2인 항목은 어려운 문항으로 간주됩니다. 일반적으로, 주어진 문항의 값이 양수이면 해당 항목은 해당 학생의 코호트에게 어렵고, 값이 음수이면 해당 문항은 쉽다.

In Rasch modelling, the scores of students’ ability and the values of item difficulty are standardised to make interpretation easier.

  • After standardising the mean, student ability level is set to 0 and the SD is set to 1.
  • Similarly, the mean item difficulty level is set to 0 and the SD is set to 1.

Therefore, after standardisation a student who receives a mean score of 0 has an average ability for the items being assessed. With a score of 1.5, the student's ability is 1.5, SDs above the mean. Similarly, an item with a difficulty of 0 is considered an average item and an item with a difficulty of 2 is considered to be a hard item. In general, if a value of a given item is positive, that item is difficult for that cohort of students and if the value is negative, that item is easy (Nunnally & Bernstein ).

학생 능력과 항목 난이도를 표준화하기 위해 표 10을 참고하여, 7명의 학생 해부학 시험에서 7개 항목에 대한 시뮬레이션된 이분법 데이터를 제시하여, 각 학생에 대한 학생 능력과 7개 항목의 난이도를 보여준다. θ라고 불리는, 학생의 능력을 계산하기 위해, 각 학생에 대해 부정확한 분수에 대한 올바른 분수의 비율의 자연 로그가 취해진다. 예를 들어 학생 2(θ2)의 능력은 다음과 같이 계산된다.
To standardise the student ability and item difficulty, consider Table 10, presenting the simulated dichotomous data for seven items on an anatomy test from seven students showing the student ability for each student and the difficulty level for each of the seven items. To calculate the ability of the student, which is called θ , the natural logarithm of the ratio of the fraction correct to the fraction incorrect (or 1 – fraction correct) for each student is taken. For example, the ability of student 2 (θ2) is calculated as follows:

이것은 학생 2의 능력이 평균 SD보다 0.89라는 것을 나타냅니다. b라고 불리는 각 항목의 난이도를 계산하기 위해, 각 항목에 대해 정확한 분수에 대한 잘못된 분수의 비율(또는 1 – 분수가 정확함)의 자연 로그가 계산됩니다. 예를 들어 항목 2의 난이도는 다음과 같이 계산한다.
This indicates that the ability of student 2 is 0.89 above the mean SD. To calculate the difficulty level of each item which is called b, the natural log of the ratio of the fraction incorrect (or 1 – fraction correct) to the fraction correct for each item is calculated. For example, the difficulty of item 2 is calculated as follows:

값이 -1.73이면 항목이 비교적 쉽다는 것을 나타냅니다. 이 표준화 프로세스는 모든 학생과 모든 항목에 대해 수행되며 Excel 스프레드시트(표 10)에서 쉽게 수행할 수 있습니다.
A value of −1.73 suggests that the item is relatively easy. This standardisation process is carried out for all students and all items and can easily be facilitated in an Excel spreadsheet (Table 10).

우리는 이제 [특정 능력을 가진 학생]이 [특정 항목 난이도를 가진 질문]에 정확하게 답할 확률을 추정하는 위치에 있다. 1PL의 경우 다음 방정식을 사용하여 확률을 추정합니다.
We are now in a position to estimate the probability that a student with a specific ability will correctly answer a question with a specific item difficulty. For 1PL, the following equation is used to estimate the probability:


여기서 p는 확률, θ 는 학생 능력, b는 항목 난이도입니다. 표 10을 참조하면, 학생 1의 능력은 평균 -0.28 SD 이하이며, 난이도 -1.73의 1번 문항이 정답으로 평균 이하이다. 위 공식을 기준으로 학생 1이 항목 1을 맞힐 확률은 [1/(1+e-(-0.28-(-1.73)))] = 0.12입니다. 학생 3의 능력 수준과 4번 항목의 난이도를 고려할 때, 학생이 3번 항목을 맞힐 확률은 [1/(1+e-(0.28-(0.28)] = [1/(1+e0)]입니다. = 0.50. 이는 학생 능력 수준과 항목 난이도가 일치할 경우 학생이 정답을 선택할 확률이 50%로 우연에 해당한다는 것을 보여준다
Where p is the probability, θ is the student ability and b the item difficulty. Referring to Table 10, the ability of student 1 is −0.28 SD below the average, and item 1, with a difficulty level of −1.73, was answered correctly, which is below the average. On the basis of the above formula, the probability that student 1 will answer item 1 correctly is [1/(1 + e−(−0.28−(−1.73))] = 0.12. Considering student 3's ability level and the difficulty of item 4, the probability that the student will answer correctly item 3 is [1/(1 + e−(0.28−(0.28))] = [1/(1 + e0)] = 0.50. This shows that if the level of student ability and the level of item difficulty are matched, the probability that the student will select the correct answer is 50%, which is equal to chance.

래쉬 분석의 기본 목표는 난이도와 학생 능력에 맞는 시험 항목을 만드는 것이다. 간단히 말해서, 학생들의 '똑똑함'은 항목의 '똑똑함'과 일치해야 한다.  표 11의 자료는 학생 능력과 항목 난이도의 관계를 더 자세히 조사하기 위해 표 10에서 추출한 자료와 위의 방정식을 사용하여 학생이 항목 난이도(b)로 항목 1에 답할 확률(p)을 정확하게 제시하였다.

The fundamental aim of Rasch analysis is to create test items that match their degree of difficulty with student ability. In simple terms, the ‘cleverness’ of the students should be matched with the ‘cleverness’ of the items. In order to further examine the relationship between student ability and item difficulty, the data in Table 11 shows the probability (p) that a student will answer item 1, with item difficulty (b), correctly given their ability (θ) using data taken from Table 10 and using the equation above.

 

문항 특성 곡선
Item characteristic curves

Rasch 분석에서, [문항 난이도]와 [학생 능력] 사이의 관계는 그림 6에 표시된 문항 특성 곡선(ICC)으로 그래픽으로 표현된다.
In Rasch analysis, the relationship between item difficulty and student ability is depicted graphically in an item characteristic curve (ICC) shown in Figure 6.

 

그림 6에서는 [문항 1]의 특성을 해석하기 위해 점선을 그립니다. -1.85의 능력을 가진 학생들이 이 질문에 올바르게 답할 확률은 50%입니다. 이것은 낮은 능력을 가진 학생들이 이 질문에 정확하게 대답할 수 있는 동등한 기회를 가지고 있다는 것을 암시한다. 또한 평균 능력(수치 = 0)을 가진 학생은 정답을 말할 확률이 80%입니다. 그 의미는 이 문제가 너무 쉽다는 것이다. 세타 축을 따라 어떤 항목이 곡선을 왼쪽으로 이동시키면 쉬운 항목이 되고, 어려운 문항은 곡선을 오른쪽으로 이동시킨다는 점에 유의해야 한다. 그림 8에 표시된 검사 분석에서 추출한 항목에 대한 ICC 곡선의 예는 그림 7에 나와 있습니다. 그림 7(a)는 어려운 문제(질문 101), 그림 7(b)는 쉬운 문제(질문 3)를 보여줍니다. 그림 7(c)는 평균 능력의 학생들이 정답을 낼 확률이 50%인 '완벽한' 문제(46번 문제)를 보여준다.
In Figure 6, dotted lines are drawn to interpret the characteristics of item 1. There is a 50% probability that students with an ability of −1.85 will answer this question correctly. This implies that student with lower ability have an equal chance of answering this question correctly. In addition, a student with an average ability (θ = 0) has an 80% chance of giving a correct answer. The implication is that this question is too easy. It should be noted that if an item shifts the curve to the left along the theta axis, it will be an easy item and a hard item will shift the curve to right. Examples of ICC curves for items taken from an examination analysis shown in Figure 8 are displayed in Figure 7. Figure 7(a) shows a difficult question (Question 101) and Figure 7(b) shows an easy question (Question 3). Figure 7(c) shows the ‘perfect’ question (Question 46) in which students of average ability have a 50% chance of giving the correct answer.

 

 

 

 

항목-학생 지도
Item-student maps

학생의 능력분포와 각 항목의 난이도는 항목-학생지도(ISM)에서도 나타낼 수 있으며, Winsteps®(Linacre, )와 같은 IRT 소프트웨어 프로그램을 활용하여 항목 난이도와 학생 능력을 함께 계산하여 표시할 수 있습니다. 그림 8은 지식 기반 테스트의 데이터를 사용하는 ISM을 보여줍니다. 지도가 두 쪽으로 갈라져 있다. [왼쪽]은 학생들의 능력을 나타내며, [오른쪽]은 각 문항의 난이도를 나타낸다. 각 학생의 능력은 '해시'(#)와 '점'(.)으로 표시되며, 문항은 문항 번호로 표시됩니다.

The distribution of students’ ability and the difficulty of each item can also be presented on an Item–student map (ISM). Using IRT software programmes such as Winsteps® (Linacre, ) item difficulty and student ability can be calculated and displayed together. Figure 8 shows the ISM using data from a knowledge-based test. The map is split into two sides. The left side indicates the ability of students whereas the right side shows the difficulty of each item. The ability of each student is represented by ‘hash’ (#) and ‘dot’ (.), items are shown by their item number. 

항목 난이도 및 학생 능력 값은 자연 로그를 사용하여 수학적으로 변환되며 측정 단위는 '로짓'이라고 합니다. 로짓 척도를 사용하면 값 간의 차이를 정량화할 수 있으며 척도의 동일한 거리는 동일한 크기입니다. 척도가 높을수록 항목 난이도와 학생 능력 모두 높아집니다. 'M', 'S', 'T' 문자는 각각 항목 난이도와 학생 능력의 평균, 표준 편차 1개와 표준 편차 2개를 나타냅니다. 항목 난이도의 평균이 0으로 설정되어 있습니다. 따라서, 예를 들어, 항목 46, 18, 28은 각각 0, 1, 그리고 -1의 항목 난이도를 갖는다. 로짓 능력이 0인 학생은 46, 60 또는 69번 항목에 올바르게 답할 확률이 50%입니다. 같은 학생이 항목 28과 62와 같이 덜 어려운 항목에 정확하게 답할 확률이 50% 이상이다. 또 같은 학생이 64번, 119번 등 더 어려운 항목에 정답을 맞출 확률은 50% 미만이다.
Item difficulty and student ability values are transformed mathematically, using natural logarithms, into an interval scale whose units of measurement are termed ‘logits’. With a logit scale, differences between values can be quantified and equal distances on the scale are of equal size (Bond & Fox ). Higher values on the scale imply both greater item difficulty and greater student ability. The letters of ‘M’, ‘S’ and ‘T’ represents mean, one standard deviation and two standard deviations of item difficulty and student ability, respectively. The mean of item difficulty is set to 0. Therefore, for example, items 46, 18 and 28 have an item difficulty of 0, 1, and −1 respectively. A student with an ability of 0 logits has a 50% chance of answering items 46, 60 or 69 correctly. The same student has a greater than 50% probability of correctly answering items less difficult, for example items 28 and 62. In addition, the same student has a less than 50% probability of correctly answering more difficult items such items 64 and 119.

그림 8의 ISM을 보면 이제 테스트의 속성을 해석할 수 있습니다. 

  • 첫째, 학생분포는 학생들의 능력이 평균보다 높은 반면, 절반 이상의 문항은 평균보다 낮은 어려움을 가지고 있다.
  • 둘째, [왼쪽 상단의 학생들]은 [오른쪽 하단의 문항]보다 '똑똑'하며, 이는 문항이 쉽고 도전적이지 않았다는 것을 의미한다.
  • 셋째, 대부분의 학생들은 오른쪽 상단에 잘 어울리는 항목과 왼쪽 아래에 학생이 없는 항목과 반대쪽에 위치한다. 하지만 101, 40, 86, 29번 항목은 너무 어려워서 대부분의 학생들이 할 수 있는 능력 밖이다.

By looking at the ISM in Figure 8 we can now interpret the properties of the test.

  • First, the student distribution shows that the ability of students is above the average, whereas more than half of the items have difficulties below the average.
  • Second, the students on the upper left side are ‘cleverer’ than the items on the lower right side meaning that the items were easy and unchallenging.
  • Third, most students are located opposite items to which they are well matched on the upper right and there are no students on the lower left side. However, items 101, 40, 86 and 29 are too difficult and beyond the ability of most students.

전반적으로, 이 예에서 학생들은 대부분의 문항보다 '더 똑똑하다'. 오른쪽 아래 사분면에 있는 많은 항목은 너무 쉬우므로 검사, 수정 또는 테스트에서 삭제해야 합니다. 마찬가지로, 어떤 항목들은 분명히 너무 어렵다. 래쉬 분석의 장점은 테스트 개발자가 항목의 심리학적 특성을 개선할 수 있도록 학생 및 항목 특성을 모두 캡슐화하는 다양한 데이터 디스플레이를 생성한다는 것이다. 항목을 학생 능력에 일치시킴으로써, 우리는 항목의 진실성과 유효성을 개선하고 컴퓨터 적응 테스트의 미래에 유용한 더 높은 품질의 항목 은행을 개발할 수 있다.
Overall, in this example, the students are ‘cleverer’ than most of the items. Many items in the lower right hand quadrant are too easy and should be examined, modified or deleted from the test. Similarly, some items are clearly too difficult. The advantage of Rasch analysis is that it produces a variety of data displays encapsulating both student and item characteristics that enable test developers to improve the psychometric properties of items. By matching items to student ability, we can improve the authenticity and validity of items and develop higher quality item banks, useful for the future of computer adapted testing.

결론들
Conclusions

OSCE 스테이션뿐만 아니라 객관적인 테스트는 학생들의 숙련도를 측정하는 데 사용되는 심리적으로 건전한 기기여야 하며 향후 이러한 검사 테스트의 실제 사용에 관심이 있는 의료 교육자에게 유용할 수 있다. 본 가이드에서는 객관적인 테스트 데이터에서 심리측정학적 값의 결과를 해석하는 방법을 간단하게 설명하고자 했다. 검사 테스트는 국가 및 지역 모두에서 표준화되어야 하며 우리는 이러한 테스트의 심리측정적 건전성을 보장할 필요가 있다. 제기될 수 있는 일반적인 질문은 우리의 시험 데이터가 학생들의 능력을 어느 정도까지 측정하느냐이다. 심리측정법을 이용한 시험 데이터의 해석은 어떤 과목에 대한 학생들의 역량을 이해하고 능력이 낮은 학생들을 식별하는 데 중심적이다. 또한, 이러한 방법들은 시험 검증 연구에 사용될 수 있다. 우리는 특히 심리측정학 방법에 대해 교육을 받지 않은 의학 교사들이 가상 데이터에 대해 이러한 방법을 실천한 다음 시험 데이터의 품질을 개선하기 위해 자체 실제 시험 데이터를 분석할 것을 제안합니다.
Objective tests as well as OSCE stations should be the psychometrically sound instruments used for measuring the proficiency of students and can be of use to medical educators interested in the actual use of these examination tests in the future. In this Guide, we tried to simply explain how to interpret the outcomes of psychometric values in objective test data. Examination tests should be standardised both nationally and locally and we need to ensure about the psychometric soundness of these tests. A normal question that may be posed is to what extent our exam data measure the student ability (to what extent the students have learned subject matter). The interpretation of exam data using psychometric methods is central to understand students’ competencies on a subject matter and to identify students with low ability. Furthermore, these methods can be employed for test validation research. We would suggest medical teachers, especially who are not trained in psychometric methods, practice these methods on hypothetical data and then analyse their own real exam data in order to improve the quality of exam data.

요약
Summary


본 가이드에서는 객관적인 시험 데이터의 검사 후 해석에 대해 설명하였다. 시험의 타당성과 신뢰성을 결정하기 위한 여러 가지 심리 측정 방법이 있다. CTT는 의학 교육자들이 시험에서 비정상적인 항목을 탐지하고 시험에서 학생들의 능력에 영향을 줄 수 있는 체계적인 오류를 식별할 수 있게 해준다. 요인 분석을 통해 의료 교육자는 관련 없는 항목을 줄이고 학생 역량과 관련된 항목과 구성 요소(요인) 내의 관계를 가정할 수 있습니다. 항목과 구성(테스트의 기본 내부 구조) 간의 관계에 대한 가설을 테스트하기 위해 CFA 및 구조 방정식 모델링을 도입했습니다. 크론바흐 알파는 전통적으로 시험의 신뢰성에 대한 추정으로 사용되지만, 시험에서 학생들의 관찰된 점수에 존재하는 측정 오차 출처의 조합을 평가하지는 않는다. 일반 가능성 연구를 사용하여 의료 교육자는 정확한 오류 위치를 표시한 다음 이를 격리하여 각 측정 오류의 출처의 차이를 추정할 수 있습니다. SPSS는 G-계수를 계산하기 위해 측정 오류의 원인을 측정하는 데 사용됩니다. CTT의 한계 중 하나는 특정 시험에서 서로 다른 능력을 가진 학생들이 특정 항목에서 어떻게 수행하는지 측정할 수 있는 기회를 제공하지 않는다는 것이다. 래쉬 모델링을 사용하는 IRT는 일련의 학생 코호트의 항목 능력과 학생 능력 사이의 관계를 다룰 수 있다. IRT를 사용하여 의학 교육자들은 기존 검사 검사의 심리학적 특징을 평가하고 항목에서 이상 징후를 제거할 수 있을 것이다. IRT를 사용하는 것은 또한 CAT로 이어지는 아이템 뱅킹을 개발하는 데 사용될 것이다.

This Guide has explained the interpretation of post-examination interpretation of objective test data. There are a number of psychometric methods for determining the validity and reliability of tests. CTT enables medical educators to detect abnormal items on a test and to identify systematic errors that may have influenced the student ability on a test. Factor analysis allows medical educators to reduce the irrelevant items, and to hypothesise relationships within items and constructs (factors) associated with student competence. We introduced CFA and structural equation modelling to test hypotheses about the relationship between items and constructs (the underlying internal structure of the test). Although Cronbach's alpha is traditionally used as an estimation of the reliability of a test, it does not assess a combination of source of measurement error that exists in observed scores of students on a test. Using Generalisability study, medical educators can show the exact position of error and then isolate it in order to estimate variance in each source of measurement error. SPSS is used for measuring sources of measurement errors to calculate G-coefficient. One of the limitations of CTT is that it does not provide the opportunity to measure how students of different ability on a particular test perform on a particular item. IRT using Rasch modelling can address the relationship between the item ability and student ability from a set of the student cohort. Using IRT, medical educators will be able to evaluate the psychometric features of existing examination tests and to remove anomalies in items. Using IRT will also employ to develop item banking in which turn leads to CAT.

 

 


 

Med Teach. 2012;34(3):e161-75. doi: 10.3109/0142159X.2012.651178.

Post-examination interpretation of objective test data: monitoring and improving the quality of high-stakes examinations: AMEE Guide No. 66

Affiliations collapse

Affiliation

1University of Nottingham, UK.

PMID: 22364473

DOI: 10.3109/0142159X.2012.651178

Abstract

The purpose of this Guide is to provide both logical and empirical evidence for medical teachers to improve their objective tests by appropriate interpretation of post-examination analysis. This requires a description and explanation of some basic statistical and psychometric concepts derived from both Classical Test Theory (CTT) and Item Response Theory (IRT) such as: descriptive statistics, explanatory and confirmatory factor analysis, Generalisability Theory and Rasch modelling. CTT is concerned with the overall reliability of a test whereas IRT can be used to identify the behaviour of individual test items and how they interact with individual student abilities. We have provided the reader with practical examples clarifying the use of these frameworks in test development and for research purposes.

 

객관식 시험의 사후 분석 AMEE Guide No. 54 (Med Teach, 2011)
Post-examination analysis of objective tests
MOHSEN TAVAKOL & REG DENNICK

 

 

소개
Introduction

이 가이드의 목적은 의료 교육에서 객관적인 평가 결과를 분석하고 평가하는 데 관련된 이론적 근거와 프로세스의 개요를 제공하는 것이다. 객관적인 평가란

  • 지식을 평가하는 객관식 질문 및
  • 구체적이고 쉽게 측정할 수 있는 관찰 기준을 통해 임상 기술을 평가하는 객관적 구조화된 임상 검사(OSCE) 및 관련 평가(예: 절차적 기술의 직접 관찰(DOPS), 미니 임상 검사(mini-CEX))

The purpose of this Guide is to provide an overview of the rationale and processes involved in analysing and evaluating the results of objective assessments in medical education. By objective assessment we mean

  • multiple choice questions that assess knowledge and
  • objective structured clinical examinations (OSCEs) and related assessments (e.g., direct observation of procedural skills (DOPS), mini-clinical examination (mini-CEX)) that assess clinical skills by means of specific and easily measurable observational criteria.

결과적으로 우리는 성과에 대한 보다 주관적인 해석에 의존하는 에세이, 과제 또는 포트폴리오 기반 평가와 같은 자료를 배제하고 있다.
We are consequently excluding material such as essays, assignments or portfolio-based assessments which rely on more subjective interpretations of performance.

우리는 측정하기가 더 '쉬운' 사물을 측정하는 결과를 분석하는 데 집중하고 있으며, 따라서 편견에 대한 죄가 있다는 것을 인정한다. 객관적으로 측정하기 어렵기로 악명 높지만 매우 중요한 정서적 또는 태도 영역에서 의학 교육의 많은 학습 결과가 있다. 그럼에도 불구하고 지식 및 임상 기술의 객관적 시험은 의료 평가의 주요 요소이며 이러한 측정이 이루어지고, 분석되고, 평가되는 과정에 대한 이해는 현대 실무의 필수 요건이다. 많은 교과서와 논문이 이 중요한 분야를 다루었다.

We acknowledge that we are concentrating on analysing the results of measuring things which are ‘easier’ to measure and that therefore we are guilty of bias. There are many learning outcomes of medical education in the affective or attitudinal domains that are notoriously difficult to measure objectively but which are exceedingly important. Nevertheless the objective testing of knowledge and clinical skills is a major element of medical assessment and an understanding of the processes whereby these measurements are made, analysed and evaluated is an essential requirement of contemporary practice. A number of text-books and papers have covered this important area (Traub & Rowley 1991; Gilbert 1996; Anastasi & Urbin 1997; Hopkins 1998; Osterlind 1998; McAlpine 2002; Shultz & Whitney 2005; Crocker & Algina 2008; Holmbow & Hawkins 2008; Rust & Golombok 2009; de Champlain 2010; Cohen & Swerdlik 2010).

처음부터 우리는 객관적인 테스트가 개념적으로 일반적인 측정 원리와 관련된 심리측정이라고 불리는 측정의 한 형태라고 주장한다. 따라서 정확도, 신뢰성, 재현성, 유효성, 특수성 및 민감도와 같은 요소들은 모두 객관적인 측정 과정에 다양하게 적용될 수 있다. 이러한 요인의 통제는 [심리측정학이 모든 본질적인 변동성향을 가진 인간에게 적용된다]는 사실에 의해 더욱 중요해진다
From the outset we assert that objective testing is a form of measurement, termed psychometrics, conceptually related to the principles of measurement in general. Consequently factors such as accuracy, reliability, reproducibility, validity, specificity and sensitivity can all apply in varying ways to the process of objective measurement. The control of these factors is made more important by the fact that psychometrics applies to human beings with all their intrinsic propensity for variation.

길이 또는 질량과 같은 물리적 특성은 매우 정확하게 측정할 수 있는 반면, 인간 학습의 측정은 상당한 변동과 '소음'과 관련이 있다. 또한 학습의 경우 [동질적인 실체]가 아닌 것이 분명하다. 전통적으로 (Bloom 1956년)은 인지적, 심리적, 정서적 영역으로 구분되며 각 영역 내에 더 많은 계층적 수준이 있다고 말했다. 이 가이드에서는 [객관식 질문에 의해 측정된 지식 영역]과 [OSCE에 의해 측정된 심리 운동 영역의 일부 측면]에 초점을 맞출 것이다.

A physical property such as length or mass can be measured extremely accurately whereas the measurement of human learning is associated with significant variation and ‘noise’. In addition, in the case of learning, it is clear that it is not a homogeneous entity. Traditionally (Bloom 1956) said that it is differentiated into the cognitive, psychomotor and affective domains with further hierarchical levels within each. In this guide we will concentrate on the knowledge domain as measured by multiple choice questions and some aspects of the psychomotor domain measured by OSCEs.

또 다른 분명한 점은 측정과 평가라는 용어가 종종 하나의 용어 바구니에 잘못 던져지는 경우가 많지만, 각각은 뚜렷한 의미를 가지고 있으며 서로 구별되어야 한다는 것이다

  • [측정]은 측정되는 현상의 크기를 평가하기 위해 [수치를 할당하는 과정]이다. 
  • 랄프 타일러에게 [평가evaluation]는 '교육목표가 어느 정도 실현되고 있는지를 결정하는 과정'을 의미한다(Tyler 1949).
    • 수치지수numerical index를 입수하여 보고하는 것 자체는, 우리가 지수를 해석하고 평가하지 않는 한 의미가 없다(Morrow et al. 2006).

A further point of clarification is that although the terms measurement and evaluation are often mistakenly tossed into one terminological basket, each has a distinct meaning and should be differentiated from each other.

  • Measurement is the process of assigning a numerical value in order to assess the magnitude of the phenomenon being measured.
  • For Ralph Tyler, evaluation refers to ‘the process of determining to what extent the educational objectives are being realised’ (Tyler 1949).
    • Obtaining and reporting a numerical index has no meaning in itself unless we interpret and value the index (Morrow et al. 2006).

학습 측정은 고립된 사건이 아닙니다. 그것은 근본적으로 학습 요구의 식별에서 시작하여 예를 들어 의사, 간호사 및 기타 의료 전문가의 학습 결과로부터 시작하는 커리큘럼 주기의 일부이다. 그런 다음 이러한 학습 성과는 강의, 소규모 그룹 교육 또는 경험적 학습과 같은 가장 적절한 습득 방법에 대해 내린 결정의 기초가 된다. [학습의 측정] 또는 [평가]를 가지고 필요한 결과를 달성했는지 확인하는 것은 이 시점 이후입니다. 이 지점에서 [시험 후 분석]이 이루어지지만, 이것은 결과, 학습 및 평가의 커리큘럼 요소가 [커리큘럼 정렬]이라고 불리는 것에서 최적으로 표현되는지 여부를 확인하고자 하는 [커리큘럼 평가]의 전체 프로세스의 한 구성 요소일 뿐이다. 이 개념은 그림 1의 다이어그램으로 요약됩니다.
The measurement of learning is not an isolated event; it is fundamentally part of a curriculum cycle beginning with the identification of the learning needs and then the learning outcomes of, for example, doctors, nurses and other healthcare professionals. These learning outcomes then become the basis of decisions made concerning the most appropriate methods of acquisition, such as lecturing, small group teaching or experiential learning. It is after this point that the measurement of learning or assessment takes place to see if the required outcomes have been achieved. It is here that the subject of this guide, post-examination analysis, takes place but this is just one component of an overall process of curriculum evaluation that seeks to ascertain if the curriculum elements of outcomes, learning and assessment are articulated optimally in what has been termed curriculum alignment (Biggs & Tang 2007). This concept is summarised by the diagram in Figure 1.

커리큘럼 설계자와 교사는 [학습 성과에 대한 명확하고 집단적인 그림]을 가져야 한다.

  • 그것들은 학생들이 학습 과정의 결론에 따라 [무엇을 배우고 입증할 것으로 예상되는지에 대한 진술]이며,
  • 원칙적으로 [측정 가능]해야 하며
  • 따라서 [객관적인 평가로 변환되고 운영]될 수 있어야 한다.

Curriculum designers and teachers should have a clear and collective picture of learning outcomes.

  • They are statements of what students are expected to learn and demonstrate by the conclusion of the learning process and
  • in principle they need to be measurable and
  • hence capable of being transformed and operationalised into objective assessments.

본 가이드는 평가에 의해 생성된 데이터를 분석하는 방법에 중점을 두지만, 이 데이터에서 얻은 정보가 학습, 교육 및 결과 사양의 프로세스로 되돌아간다는 것을 깨달아야 한다. 예를 들어, [시험에서 드러난 이상anomalies]은 잘못된 문제 설정, 잘못된 교육 또는 부적절한 학습 결과의 사양을 나타낼 수 있다. 평가 주기는 그림 2와 같이 도표로 표시할 수 있습니다.

Although this Guide will focus on the methods for analysing the data generated by assessments it must be realised that the information obtained from this data feeds back into the processes of learning, teaching and outcome specification. For example, anomalies revealed in tests might indicate poor question setting, poor teaching, or even the specification of inappropriate learning outcomes. The assessment cycle can be displayed diagrammatically as shown in Figure 2.

 

 

시험 주기
The examination cycle

본 가이드의 목적상, 우리는 학습 성과가 정의되었고 모든 학습자가 이러한 결과를 달성할 수 있도록 적절한 교육 및 학습 경험이 제공되었다고 가정할 것입니다. [학습 성과]와 관련된 용어를 둘러싼 논란이 여전히 존재한다. (학습) 성과는 학습 과정이 끝날 때 학습자가 요구하거나 달성한 역량을 설명하는 광범위한 진술이 되어야 합니다. 예를 들어, GMC, 스코틀랜드 학장 및 WFME에 의해 '결과' 기반 의료 커리큘럼이 정의되었다.
For the purposes of this Guide we will assume that learning outcomes have been defined and that appropriate teaching and learning experiences have been provided so that these outcomes can be achieved by all learners. There is some controversy still surrounding the terminology associated with learning outcomes. Outcomes are meant to be broad statements describing the competencies required or achieved by learners at the end of a course of study. For example ‘outcome’ based medical curricula have been defined by the GMC, Scottish Deans and the WFME (GMC 2003; WFME 2003; Scottish Dean 2007).

반면 '학습목표'는 보다 [세분화]되어, 강의와 같은 [특정 학습 에피소드의 마지막에 습득한 학습]을 설명하는 데 자주 사용된다. 세분화된 수준의 결과 또는 목표는 학습자가 무엇을 할 수 있어야 하는지를 설명하는 진술이다. 단순성을 위해 우리는 결과라는 용어를 내내 사용할 것이다.
‘Learning objectives’, on the other hand, are more granular and are frequently used to describe the learning that has been acquired at the end of a specific learning episode such as a lecture. Whatever level of granularity is specified outcomes or objectives are statements describing what learners should be able to do. For simplicity we will use the term outcomes throughout.

앞서 지적했듯이 학습 결과는 측정 가능해야 하므로 종종 [행동 성과]라고 합니다. 블룸(1956)은 행동 결과를 세 가지 영역으로 분류했다: 인지 영역, 정서 영역 및 정신 운동 영역. 

  • 인지적 또는 지식 내에서 도메인 결과는 증가하는 인지적 요구의 스펙트럼에 따라 분류될 수 있다. 블룸의 원래 순위는 지식, 이해, 응용, 분석, 종합, 평가로 구분되었다. 보다 최근에는 지식 차원이 업데이트되었다. 기억, 이해, 응용, 분석, 평가, 창조(Anderson & Krathwohl 2000).
  • 원래의 심슨 1966년 사이코모터 영역은 관찰 프로토콜로 작동하기 쉽지 않은 일반적인 용어로 구성되었다: 인식, 설정, 유도 반응, 메커니즘, 복합적 공공적 반응, 적응 및 발생. 

As previously pointed out, learning outcomes should be measurable and hence they are frequently termed behavioural outcomes. Bloom (1956) classified behavioural outcomes into three domains: the cognitive domain, the affective domain and the psychomotor domain.

  • Within the cognitive or knowledge, domain outcomes can be categorised on a spectrum of increasing cognitive demand. Bloom's original ranking was differentiated into the following: knowledge, comprehension, application, analysis, synthesis and evaluation. More recently the knowledge dimension has been updated, giving the following: remembering, understanding, application, analysis, evaluation, creation (Anderson & Krathwohl 2000).
  • The original psychomotor domain (Simpson 1966) consisted of general terms which were not easy to operationalise into an observational protocol: perception, set, guided response, mechanism, complex overt response, adaptation and origination.

Dreyfus 모델은 현재 실무 능력의 습득을 모니터링하는 데 널리 사용되고 있지만, 다시 말해 실무 절차를 평가하기 위한 객관적인 시스템으로 쉽게 전환되지 않는다. OSCE 스테이션에서 확인할 수 있듯이, 본질적으로 증가하는 정신운동 복잡성의 척도에 대해 개인을 측정하기보다는 쉽게 관찰할 수 있는 특정 실무 역량의 목록을 정의하는 데 중점을 둔다. 정서적 영역에서 결과를 측정하는 것은 정의된 행동을 관찰함으로써 달성되지만 기준은 종종 주관적이고 정의하기 어렵다. 관찰된 행동과 개인의 내면적 '태도' 사이의 관계도 문제가 있다.

The Dreyfus model (Dreyfus & Dreyfus 2000) is now widely used to monitor the acquisition of practical skills but again is not easily transformed into an objective system for assessing, for example, practical procedures. As will be seen methods for assessing at OSCE stations essentially revolve around defining a list of specific practical competencies that can be easily observed rather than measuring an individual against a scale of increasing psychomotor complexity. Measuring outcomes in the affective domain is achieved by observing defined behaviours but the criteria are often subjective and difficult to define. The relationship between observed behaviour and an individual's internal ‘attitude’ is also problematic.

 

시험
Test

시험은 '행동 표본의 객관적이고 표준화된 척도'로 정의되었다(Anastasi & Urbin 1997). 이 정의를 이해하기 위해서는 세 가지 핵심 요소, 즉 객관성, 표준화 및 행동의 표본이 명확해질 필요가 있다.

  • 시험은 시험관의 주관적인 판단과 독립적으로 시행, 채점, 해석될 경우 [객관적인 것]으로 간주된다.
  • [표준화된 시험]은 문제, 채점, 해석 및 관리에 대한 절차가 '한 시험관으로부터 다른 시험관에 이르기까지 획일적'인 시험이다. 이것은 단순히 우리가 학생들의 점수를 서로 비교하고 싶다면, 동일한 시험 조건에서 동일한 시험 문제를 가진 모든 학생들을 시험할 필요가 있다는 것을 보여준다.
  • 시험은 [특정 행동의 표본]을 측정해야 한다. 이 표본을 바탕으로 검정 생성자는 몇 가지 추론과 가설을 도출합니다. 예를 들어, 의학 교육자가 학생들의 의학 용어에 대한 지식을 테스트하고 싶다면, 그 또는 그녀는 대표적인 의학 용어의 샘플로 그들의 성과를 조사한다.

Test has been defined as ‘an objective and standardised measure of a sample of behaviour’ (Anastasi & Urbin 1997). To understand this definition, three key elements need to be clarified, that is objectivity, standardisation and a sample of behaviour.

  • A test is considered to be objective if it is administered, scored and interpreted independently of the subjective judgment of examiners.
  • A standardised test is a test in which the procedure for the questions, scoring, interpreting and administrating are ‘uniform from one examiner and setting to another’ (Gregory 2007). This simply shows if we want to compare students’ scores to each other, it is necessary to test all students with the same test questions under the same test conditions.
  • A test should measure a sample of particular behaviour. Based on this sample, test constructors draw some inferences and hypotheses. For example, if a medical educator wishes to test the knowledge of students’ medical terminology, he or she examines their performance with a representative sample of medical terms.

항목 작성 및 항목 뱅킹
Item writing and item banking

[학습 성과]가 정의되고 학생들이 학습 결과를 습득할 수 있도록 적절한 [학습 경험]이 제공되었다면, 다음 단계는 [시험 항목, 문제 또는 OSCE 점검 목록]의 작성이다. [문제 작성]은 잘못 구성된 항목이 평가 프로세스의 정렬을 전복시키고 손상시킬 수 있으므로 신중하게 개발되어야 하는 기술입니다. 질문은 인지 수준이 알려진 정의된 학습 결과와 관련되어야 하며 명확하고 모호하지 않아야 한다. 질문은 또한 타당해야 한다. 즉, 최소한 내용 타당성, 구성 타당성 및 안면 타당성, 즉 홉킨스(1998)에서 정의된 개념을 가져야 한다. 여기서 질문 작성 기술을 다룰 공간은 없지만 독자는 케이스와 스완슨에게 언급된다. 질문 개발자가 최종 초안에서 요구되는 것보다 2배 많은 질문을 생성한다면 유용할 것이다. 문제 개발자는 이러한 문제를 문제은행에 보관하여 나중에 시험에 대한 결정을 내릴 수 있다. 또한 시험 개발자는 병렬 형식의 신뢰성 추정(신뢰성 추정 참조)을 사용하여 신뢰성을 결정하기 위해 병렬 형식의 시험을 설계할 수 있다.

If learning outcomes have been defined and appropriate learning experiences provided so that students can acquire them, the next phase becomes the writing of test items, questions or OSCE check lists. Question writing is a skill that needs to be carefully developed as badly constructed items can subvert and damage the alignment of the assessment process. Questions should be related to a defined learning outcome whose cognitive level is known and they should be clear and unambiguous. Questions should also be valid, i.e. they should have at least content validity, construct validity and face validity, concepts defined in Hopkins (1998). There is not space here to go into the techniques of question writing but the reader is referred to Case and Swanson (Case & Swanson 2010). It would be useful if question developers produced twice as many questions as required in the final draft. Question developers can keep these questions in the question bank for later decisions on incorporation into the test. The test developer could also design parallel forms of the test in order to determine reliability by using parallel-forms reliability estimation (see reliability estimates). 

질문 작성 외에도, 평가자들은 리즈 의학 교육 연구소(UMAP 2010)의 UMAP(Universities Medical Assessment Partnership)와 같은 많은 질문이 구축, 테스트, 평가 및 정제된 [문제 은행]으로 점점 더 눈을 돌리고 있다. 홍콩 이상 컨소시엄은 또한 국제적인 규모로 의학 교육자들을 위한 평가 은행을 설립하고 공유했다. 많은 질문의 장점은 평가자가 대상 내용 영역, 심리 측정 특성 또는 기타 독립 변수에 따라 분류되는 많은 시도되고 테스트된 질문에 편리하게 접근할 수 있다는 것을 의미한다. [문제 은행]은 컴퓨터에 저장하여 학생에게 전달된 질문이 이전 질문에 대한 수행의 함수인 컴퓨터 적응 테스트(CAT)에 사용할 수 있습니다(Weiss & Vale 1987). 

In addition to question writing, assessors are increasingly turning to question banks where many questions have been constructed, tested and evaluated and refined, for example the Universities Medical Assessment Partnership (UMAP), at Leeds Institute for Medical Education (UMAP 2010). The Hong Kong Ideal Consortium has also created and shared an assessment bank for medical educators on an international scale (Ideal Consortium 2010). The advantage of a large bank of questions means that assessors have convenient access to a large number of tried and tested questions which are categorised according to the target content area, psychometric properties or other independent variables. Question banks can be stored in computers and used for computerised adaptive testing (CAT) where the question delivered to the student is a function of their performance on the previous questions (Weiss & Vale 1987).

CAT 접근 방식에서는 학생이 이전 질문에 올바르게 답하지 않을 경우 프로그램이 다음 질문으로 넘어가지 못하게 할 수 있습니다. 이는 기관이 지원자를 인증 또는 면허 취득 여부를 결정하는 형성 평가나 고부담 시험에서 매우 유용합니다. CAT는 시험 중 학생의 수행 수준을 측정하는 방식으로 작동한다. 각각의 질문이 끝난 후, 그의 현재 성과를 은행의 모든 질문과 비교할 수 있다. 전산화된 시험 프로그램의 알고리즘은 학생의 현재 성적 수준과 모든 시험 규격을 기반으로 은행의 다음 질문을 선택한다. 이 프로세스는 테스트가 종료될 때까지 계속됩니다. 이 방법으로 너무 쉬우거나 너무 어려운 문제는 해당 응시자에게 전달되지 않고 시험이 개인화됩니다. CAT를 사용하면 신뢰성에 영향을 주지 않으면서 관리해야 하는 시험 문제 수가 50% 감소하고 오류 측정도 50% 감소합니다.

In this approach the programme may not allow the student to move on to the next question, if he or she does not correctly answer the previous question. This is very useful for formative assessment or in high stakes examinations, where institutions are deciding if a candidate will be certified or licensed (Bergstrom & Lunz 2008). CAT operates by measuring the performance level of the student during the test. After each question, his/her current performance can be compared to all questions in the bank. The algorithm of the computerised testing programme selects the next question from the bank based on the current level of the student's performance and all test specifications. This process continues until the test is terminated. By this method the questions that are too easy or too difficult will not be delivered to that candidate and the test will be individualised. Using CAT, the numbers of test questions that need to be administrated are reduced by 50% without sacrificing reliability and concurrently the measurement of error is reduced by 50% (Bergstrom & Lunz 2008; Cohen & Swerdlik 2010).

항목 샘플링: 몇 가지 질문을 해야 합니까?
Item sampling: how many questions should we ask?

우리가 시험을 칠 때, 학습 영역의 모든 학습 결과와 관련된 질문을 하는 것은 현실적으로 불가능하며, 결과적으로 우리는 실용적인 이유로 샘플을 채취해야 한다. 그러나, 특정 지식의 영역이 영역의 적절한 깊이와 폭을 포괄하는 학습 결과의 범위에 의해 설명되었다면, 이러한 학습 결과의 몇 부분이 전체 모집단의 대표적인 샘플을 구성합니까? 다시 말해서, 우리는 시험에서 얼마나 많은 항목을 정해서 한 학생을 위해 얻은 점수가 그들의 세계적인 지식을 반영한다는 것을 우리에게 안심시켜야 하는가? 많은 시험들의 크기가 적절한 표본 크기보다는 전통이나 시간의 길이에 기반을 두고 있기 때문에 이것은 자주 묻는 질문이 아니다. 이 문제를 해결함으로써 생성된 유효성은 내용 타당도와 연관된다.
When we set an exam it is practically unfeasible to ask a question concerned with every single learning outcome in an area of learning, consequently we are forced to sample for practical reasons. However, if a particular area of knowledge has been described by a range of learning outcomes, which cover an appropriate depth and breadth of the domain, what fraction of these learning outcomes constitutes a representative sample from the total population? In other words how many items should we set in the test to reassure us that the score obtained for a student reflects their global knowledge? This is a question that is not often asked as the size of many exams is based on tradition or length of time rather than appropriate sample size. The validity created by addressing this issue is associated with content validity.

전체 항목 풀의 대표적인 부분을 선택하는 과정을 문항 샘플링이라고 한다. 시험의 항목 크기는 오류의 원인이 될 수 있으며 오류는 나중에 논의될 것처럼 신뢰성이 떨어진다(Cortina 1993). 그러나 시험 항목의 수가 증가함에 따라 표본 오차가 감소하여 신뢰성이 그림 3과 같이 증가해야 한다는 것은 분명하다. 또한 추측 가능성이 있는 객관식 시험에서 항목 수를 늘리면 추측과 관련된 오차가 줄어듭니다.

The process of selecting a representative fraction of a total pool of items is referred to as item sampling. The size of items in a test can be a source of error and error leads to unreliability as will be discussed later (Cortina 1993). However, it is clear that as the number of test items increases sampling error will decrease and hence reliability should increase as shown in Figure 3. In addition, in multiple choice tests where there is the possibility of guessing, increasing the number of items will reduce errors associated with guessing.

 

아래 공식을 사용하여 검정에 적합한 표본 크기를 계산할 수 있습니다.
An appropriate sample size can be calculated for a test using the formula below:



여기서 n은 표본 크기와 같으며, Z2는 표본 크기가 우연에 의해 얼마나 영향을 받는지 나타내는 신뢰 수준(90% 신뢰도는 1.64, 95% 신뢰도는 1.96, 99%는 2.57)이며, SD는 항목 모집단의 표준 편차 추정치이며, e2는 표본 크기의 오차(예: 0.03 또는 0.05)입니다. 따라서 표본 크기를 계산하려면 파일럿 연구 또는 이전 데이터에서 추정된 표준 편차가 필요합니다. 예를 들어, 문항 모집단에서 20문항의 무작위 표본을 추출하여 학생 그룹과 함께 시험하는 경우, 학생 점수의 표준 편차는 0.26으로 계산될 수 있다. 그런 다음 이 표준 편차를 표본 크기 공식에 대입하고 필요한 표본 크기를 계산합니다. 이 정보를 가지고 95% 신뢰 수준과 0.05 정밀도의 표본을 얻으려면 필요한 표본 크기(n)는 다음과 같이 계산됩니다.


Where n is equal to the sample size, Z2 is a confidence level indicating how much the sample size is influenced by chance (1.64 for 90% confidence, 1.96 for 95% and 2.57 for 99%), SD is an estimation of standard deviation in the population of items, e2 is the error of the sample size, e.g., 0.03 or 0.05. To calculate the sample size we therefore need the standard deviation estimated either from a pilot study or from previous data. For example if a random sample of 20 questions is drawn from the population of items and piloted with a group of students a standard deviation of student's scores might be calculated as 0.26. This standard deviation is then substituted into the sample size formula and the sample size required is calculated. With this information in hand, if we desire to obtain a sample with a 95% confidence level and 0.05 precision, the sample size required (n) is calculated as:

따라서 95% 신뢰도를 제공하기 위해 최소 106개 문항이 시험에 포함되어야 합니다. 시험 대상 항목 모집단의 이질성이 클 경우, 주어진 수준의 정밀도를 얻기 위해서는 더 큰 표본이 필요하며, 그 반대의 경우도 마찬가지라는 점에 유의해야 한다. 이질적인 테스트가 많을수록 나중에 논의된 크론바흐 알파 통계에 의해 결정되는 항목 간 일관성이 떨어진다.
Therefore, the test should include at least 106 questions to provide 95% confidence. It should be noted that if the heterogeneity of the population of items being tested is large, a larger sample is required to obtain a given level of precision and vice versa. The more heterogeneous a test, the less inter-item consistency there is as determined by the Cronbach alpha statistic as discussed later.

 

평가의 파일럿
Piloting of assessments

원칙적으로 시험이 개념화되고 구성되면 항목 분석을 사용하여 전체 내용 문제를 제거하기 위해 적절한 학습자 그룹을 대상으로 시험해야 합니다. 실제로 통계 절차는 '좋은' 질문과 수정하거나 폐기해야 하는 질문을 판단하는 데 도움이 됩니다. 이 분석을 바탕으로 시험 문제를 만들고 새로운 수험생 표본에 시험하여 시험을 마무리한다. 그러나 실제로 이 과정은 시험 내용이 학생에게 '유출'될 수 있고, 문제 은행의 좋은 문제를 다 사용할 수 있기 때문에 실현 불가능할 수 있습니다. 대안적 또는 추가적인 접근법은 문제의 용이성, 난이도 또는 적절성에 대한 귀중한 조언을 해줄 수 있는 외부 심사관이 시험지를 볼 수 있도록 하는 것이다. 또 다른 고려사항은 아래에서 논의되는 병렬 형식의 시험 사용이다.
In principle, once an examination has been conceptualised and constructed it should be piloted on an appropriate group of learners to eliminate any gross content problems using item analysis. Indeed, statistical procedures assist us to judge ‘good’ questions and those questions that need to be modified or discarded. On the basis of this analysis, test questions are created and tried out on a new sample of examinees to finalise the test. However, in practice this process may be unfeasible as it might allow ‘leakage’ of the exam content into the student body and might use up valuable questions from the bank. An alternative or additional approach is to ensure that the exam paper is seen by an external examiner who can give valuable advice on the ease, difficulty or appropriateness of questions. Another consideration is the use of parallel-forms of the test, which is discussed below.

표준설정
Standard setting

시험지를 사용할 준비가 되면 '표준 설정'으로 합격 표시를 결정해야 합니다. 간단히 적절한 개인 그룹은 대상 청중과 관련하여 각 질문의 용이성 또는 난이도를 차례로 검토하고, [주관적인 합의 과정]을 통해 (필기 시험과 임상 시험 모두에 대해) [신뢰할 수 있고 정당하며 허용되는 합격선 점수]를 설정한다. 표준은 허용 가능한 수행자와 그렇지 않은 수행자 사이의 경계를 나타내는 최소 적정 수준의 수행이다(Norcini 2003). 문헌에 설명된 표준 점수 식별에 사용할 수 있는 여러 가지 표준 설정 방법이 있지만 이 가이드의 목적은 아닙니다. 
Once the exam paper is ready for use a pass-mark needs to be determined by ‘standard setting’. Briefly a group of appropriate individuals examines each question in turn for its ease or difficulty in relation to its target audience and, via a subjective process of consensus, establishes trustworthy, justifiable and acceptable standard scores for both written tests and clinical examinations. The standard is the minimum adequate level of performance, indicating the boundary between those who perform acceptably and those who do not (Norcini 2003). There are a number of different standard setting methods available for identifying the standard score, described in the literature (Cusimano 1996, Norcini & Guille 2002; Bandaranayake 2008), but it is not the purpose of this Guide to discuss them.

그러나 여기서 중요한 것은 [시험 후 분석 결과]를 [표준 설정과 관련된 사람들에게 피드백]하여, 문항의 속성과 품질을 평가하는 능력을 향상시킬 수 있는 수단이다. 표준 설정자는 시험의 용이성이나 난이도에 대해 더 많은 정보에 입각한 판단을 내릴 수 있도록 [문항과 전반적인 시험 구성]에 대한 지식과 경험을 쌓아야 하며, 따라서 더 공정하고 적절한 합격점수 또는 컷 점수를 정의할 수 있어야 한다.

However, what is relevant here is the means by which the results of post-examination analysis can be fed back to those involved in standard setting so that their ability to evaluate the attributes and quality of questions is enhanced. Standard setters need to build up a body of knowledge and experience of items and overall test construction so that they can make more informed judgements concerning the ease or difficulty of a test and hence define a fairer and more appropriate pass mark or cut-score.

표준 참조 및 기준 참조 테스트
Norm referenced and criterion referenced tests

이것이 포함된 문항의 수와 유형에 영향을 미치고 따라서 검사 후 분석의 해석에 영향을 미치기 때문에 고려해야 할 마지막 주제는 시험의 전반적인 목적이다. 테스트를 구성하는 두 가지 주요 목적은 로버트 글레이저가 만든 용어인 표준 참조와 기준 참조를 위한 것이다.

One final topic that needs to be considered is the overall purpose of the test since this will affect the number and type of questions it contains and hence will influence the interpretation of post-examination analysis. The two major purposes for constructing tests are for norm-referencing and criterion referencing, terms coined by Robert Glaser (Glaser 1963).

[norm-referenced 접근법]에서 시험 설계자는 경쟁적인 이유 또는 특정 표준을 유지하기 위해 미래 과정의 제한된 장소와 같은 특정 이유로 최고의 학생을 선발하기 위해 성적이 우수한 학생과 성적이 낮은 학생을 구별하려고 한다. 시험이 끝날 때 시험 제작자들은 학생들의 시험 점수의 평균과 표준 편차를 계산한 다음 정규 분포 곡선에서 각 학생의 위치를 결정한다. 합격이 허용된 학생의 비율과 다른 성적을 가진 학생들의 places의 가용성에 따라 임의의 성적 경계와 합격 표시가 이 분포에 삽입된다. 분명히 표준 기준 시험에서 [학생이 얼마나 잘하느냐]는 학생의 성취도에 대한 절대적인 척도가 되기보다는, 전체 코호트가 어떻게 수행하느냐의 함수이다. 만약 시험의 목적이 제한된 포지션이나 시상을 위한 경쟁이라면, 정규 분포를 따라 [학생들을 분산시키기 위해] norm-referenced 시험을 설계해야 한다. 따라서 지식기반시험에서는 [이질적인 인지적 요구]를 가진 문항이 있는 것이 적절할 것이며, 검사후 분석은 그러한 시험이 목적을 달성했는지 여부를 확인할 수 있을 것이다.
In norm-referenced approaches, test designers seek to differentiate high-performing students from low-performing ones in order to select the best students for particular reasons, such as a limited number of places on future courses, for competitive reasons or to maintain particular standards. At the conclusion of the examination test makers calculate the mean and standard deviation of students’ test scores and then determine the placement of each student on a normal distribution curve. Arbitrary grade boundaries and pass-marks are inserted onto this distribution depending on the proportion of students that are permitted to pass and the availability of places for students with different grades. Clearly how well a student does in a norm-referenced exam is a function of how the whole cohort performs rather than being an absolute measure of the student's attainment. If the purpose of the exam is competition for limited places or prizes then a norm-referenced exam should be designed to spread students out along the normal distribution. Thus, in a knowledge based exam it would be appropriate to have a range of questions with heterogeneous cognitive demand and post-examination analysis would be able to confirm whether such an exam achieved its aim.


[Criterion-referenced 접근법]은 다른 사람의 성과에 대한 참조 없이 학습자의 성취도를 측정하여 학습자를 평가하려고 시도한다. Cohen과 Swerdlik(2010)에 따르면, Criterion-referenced 평가는 '평가방법 및 정해진 기준에 따라 개인의 점수를 평가하여 시험점수에서 의미를 도출하는 방법'으로 정의된다. 따라서 학생이 특정 학점을 합격, 불합격 또는 달성하는지 여부는 코호트의 달성 여부에 관계없이 시험에서 특정 점수를 달성할 수 있는 능력에 따라 결정된다. 기준 참조는 시험의 주요 목적이 학생들이 특정한 인지 능력이나 정신 운동 능력을 획득했는지 확인하는 것일 때 사용된다. 이는 질문의 수와 유형에 영향을 미칠 것이 분명하며, 따라서 Criterion-referenced 시험이 [더 동질적]일 가능성이 높다. 그럼에도 불구하고 학습자 모집단 내 능력 범위와 질문의 잔류 이질성을 고려할 때, Criterion-referenced 시험에서도 분산은 적지만 결과가 분석될 때 정규 분포가 관찰될 가능성이 여전히 높다.

Criterion-referenced approaches attempt to assess learners by measuring their attainment without reference to the performance of others. Criterion-referenced assessment, according to Cohen and Swerdlik (2010), is defined as ‘a method of evaluation and a way of deriving meaning from test scores by evaluating an individual's score with reference to a set standard’. Thus, whether a student passes or fails or achieves a particular grade is determined by their ability to achieve a particular score in an examination regardless of the attainment of the cohort. Criterion-referencing is used when the primary purpose of an examination is to see if students have attained specific cognitive or psychomotor competencies. Clearly this will influence the number and type of questions asked and it is more likely, therefore, that a criterion-referenced exam would be more homogeneous. Nevertheless given the range of abilities within a population of learners and the residual heterogeneity of questions, even in a criterion-referenced exam, it is still likely that a normal distribution will be observed when the results are analysed, albeit with less variance.

시험문제 분석
Analysis of examination questions

[시험 후 분석기법]을 활용하는 근거는 [평가의 질과 신뢰성을 향상]시키고, 작은 분산오차로 학생들의 수행수준을 추정하기 위해 학생을 평가하는 데 [가장 적합한 문항을 선택]하기 위함이다. 이 섹션에서는 결함이 있는 질문을 식별하기 위해 다양한 프로세스를 사용할 수 있는 방법, 차별을 개선할 수 있는 방법 및 질문을 삭제하거나 바꿔서 전체적인 신뢰성을 높일 수 있는 방법을 설명합니다. OSCE 시험의 경우 '매'와 '비둘기'의 식별과 평가자 간 신뢰성 문제를 다루는 문제가 논의될 것이다.
The rationale for using post-exam analysis techniques is to improve the quality and reliability of assessments, and to select the questions that are most appropriate for assessing students in order to estimate students’ level of performance with low variance error. This section will explain how various processes can be used to identify flawed questions, how discrimination can be improved and how overall reliability can be increased by deleting or rephrasing questions. In the case of OSCE examinations the identification of ‘hawks’ and ‘doves’ and the problem of dealing with inter-rater reliability issues will be discussed.

또한 시험 후 분석이 항목 은행의 메타 데이터 코딩 문제 개발에 어떻게 기여할 수 있는지, 예를 들어 표준 설정의 정확도를 향상시킴으로써 문제 데이터가 시험 주기에 어떻게 영향을 미칠 수 있는지 논의할 것이다.
In addition we will discuss how post-exam analysis can feed into the development of meta-data coded questions in item banks and how question data can influence the examination cycle by, for example, improving the accuracy of standard setting.

조정
Moderation

보다 분석적인 방법을 다루기 전에 [시험 조정 과정]에 대해 간략하게 논의할 가치가 있습니다. 이는 반드시 매우 객관적인 평가 기준을 사용하지 않는 평가자가 여러 명인 상황에서 필요할 가능성이 높다. 이 문제는 기계나 컴퓨터에 표시된 지식 기반 평가에서는 발생하지 않지만 사람이 평가한 OSCE 검사에서는 발생할 수 있다. 특히 주관성이 시험 채점에 관여할 때, 평가 기준('매'와 '비둘기')을 차등적으로 해석하는 심사관은 오류 분산의 원천이 될 수 있으며, 이는 다시 측정되는 성과에 대한 학생의 실제 점수에 부정적이거나 긍정적인 영향을 미칠 수 있다. 이는 또한 저신뢰성unrealiability을 유발하며, 이 요인을 보완하기 위한 메커니즘을 마련해야 한다(나중에 참조). 논술이나 단답형을 이용한 필기시험의 경우, 이중, 익명의 채점이 공정한 기준이 유지되도록 하는 가장 좋은 방법인 경우가 많다.
Before dealing with the more analytical methods it is worthwhile briefly discussing the process of exam Moderation. This is more likely to be required in situations when there are multiple assessors who are not necessarily using very objective assessment criteria. This is unlikely to occur with machine or computer marked knowledge based assessments but can occur with human assessed OSCE examinations. Examiners, especially when subjectivity is involved in test scoring, who differentially interprets assessment criteria (‘hawks’ and ‘doves’) can be source of error variance, which in turn may negatively or positively influence the student's true score on the performance being measured. This will also generate unreliability and mechanisms need to be in place to compensate for this factor (see later). For written examinations using essays or short answers, double, anonymous marking is often the best way to ensure that fair standards are maintained.

기술 통계량
Descriptive statistics

테스트에서 원시 점수를 얻은 후 가장 간단한 분석은 점수의 빈도 분포를 살펴보고 평균, 최빈값, 중위수 및 표준 편차를 계산하는 것입니다. 이 수치는 SPSS(SPSS 2009)에 데이터를 삽입하여 쉽게 계산할 수 있다. 일반적으로 사용되는 용어의 정의는 표 1에 설명되어 있습니다.
Once raw scores have been obtained from a test the simplest analysis that can be undertaken is to look at the frequency distribution of scores and to calculate the mean, the mode, the median and the standard deviation. These figures are readily calculated by inserting the data into SPSS (SPSS 2009). The definitions of the commonly used terms are described in Table 1.

 

분포를 검사하면 분포가 '정규' 분포에서 얼마나 멀리 떨어져 있는지, 얼마나 치우쳐 있는지 알 수 있습니다. 평균, 모드 및 중위수 간의 차이는 분포가 정규 분포를 얼마나 벗어나는지 보다 객관적으로 나타냅니다. 분포가 치우쳐 있는 정도는 검정의 전반적인 용이성 또는 난이도를 나타낼 수 있습니다. 모드가 한쪽으로 꺼지면 분포가 치우쳐 있다고 합니다. 모드가 왼쪽이고 꼬리가 오른쪽인 경우 분포는 양의 또는 오른쪽 왜도를 갖습니다. 이는 학생들의 시험 점수가 분포의 높은 끝에서 떨어지는 경우가 거의 없다는 것을 보여주는데, 이는 시험이 너무 어려웠다는 것을 의미한다. 여기서 분포의 하단에서의 변별력을 수정하기 위해서는 난이도가 낮은 문항이 더 많이 사용되었어야 했다. 긴 꼬리가 왼쪽에 있으면 분포가 음수 또는 좌측 스큐를 갖습니다. 이는 학생들의 시험 점수가 분포 하단에서 떨어지는 경우가 거의 없다는 것을 보여주는데, 이는 시험이 너무 쉬웠다는 것을 의미한다. 여기서 분포의 상위 끝에서의 차별을 수정하기 위해 더 어려운 질문이 사용될 수 있었다. 
Inspection of the distribution can reveal how far it deviates from a ‘normal’ distribution and how skewed it is. Differences between the mean, mode and median also give a more objective indication of how much the distribution deviates from normal. How skewed the distribution is can indicate the overall ease or difficulty of a test. When the mode is off to one side the distribution is said to be skewed. If the mode is to the left with a long tail to the right the distribution has positive or right skewness. This shows that few students’ test scores fall at the high end of the distribution, which means the test was too difficult. Here, in order to modify the discrimination at the lower end of the distribution, more questions with a lower level of difficulty should have been used. If the long tail is to the left the distribution has negative or left skeweness. This shows that few students’ test scores fall at the lower end of the distribution, which means the test was too easy. Here, in order to modify the discrimination at the higher end of the distribution, harder questions could have been used.

Z점수
Z-scores


원시 점수의 평균과 표준 편차는 시험의 크기와 총점에 따라 달라집니다. 시험 점수를 표준 방식으로 비교할 수 있도록 '정규화'하는 방법은 z-점수를 계산하는 것이다.
The means and standard deviations of raw scores will vary depending on the size of the examination and the total mark. A method for ‘normalising’ examination scores so that they can be compared in a standard way is to calculate z-scores.

만약 학생들의 점수가 평균과 표준 편차를 가지고 있다면, 학생의 점수는 다음과 같은 방정식에 의해 z-점수로 변환된다.
If students’ scores have a mean and standard deviation, then the student's score is transformed into a z-score by the equation:

이 공식은 단순히 z-점수가 특정 시험에서 학생들의 원시 점수(X)와 평균 점수(X_bar)의 차이와 같다는 것을 보여준다. 모든 z-점수 변환 분포의 평균은 0이고 표준 편차는 1입니다. 개인의 z 점수는 표준 편차 단위로 평균보다 얼마나 높거나 낮은지 보여줍니다. 예를 들어 특정 시험의 점수 평균이 표준 편차 15에 50이라고 가정하면 학생이 65점을 받으면 z 점수는 +1이다. 이것은 학생이 분포의 평균보다 +1 표준 편차라는 것을 의미합니다. 학생의 위치를 서로 비교하는 데 z-점수의 표준 표를 사용할 수 있습니다. 정규 분포 내에서 점수의 위치는 다음과 같습니다. 점수의 68%는 평균의 +/-1 표준 편차 내에 있습니다. 점수의 95%는 평균의 + /-2 표준 편차 내에 있습니다. 마지막으로, 점수의 99.75%는 평균의 +/-3 표준 편차 내에 있습니다. 따라서 위의 예에서 다른 학생의 약 16%가 학생보다 높은 점수를 받았습니다. 따라서 원점수에 의존하는 것은 학생들에게 잘못된 인상을 줄 수 있을 뿐만 아니라 시험에 대한 왜곡된 시각을 제공할 수 있다. Z 점수는 교사들이 다른 총점으로 다른 시험에서 학생들의 점수를 비교할 수 있게 해준다.

This formula simply shows that a z-score is equal to the difference between a raw score (X) and the mean score of students (X_bar)  in a particular test divided by the standard deviation (s). All z-score transformed distributions have a mean of 0 and a standard deviation of 1. An individual's z-score shows how far above or below the mean their score is in units of standard deviation. For example assuming the mean of scores in a particular test is 50 with a standard deviation 15, if a student scores 65, his/her z score is +1. This means that the student is +1 standard deviation above the mean of the distribution. Standard tables of z-scores are available for comparing the position of student to each other. Within the normal distribution the position of scores is as follows: 68% of scores lie within +/−1 standard deviation of the mean. 95% of scores lie within + /−2 standard deviations of the mean. Finally, 99.75% of the scores lie within +/−3 standard deviations of the mean. Therefore, in the above example, approximately 16% of other students obtained higher scores than the student. Thus, relying on a raw score can provide a wrong impression of the student, as well as a distorted view of the exam. Z-scores allow teachers to compare students’ scores on different tests with different total marks.

X_Bar

 

 

문항 분석
Item analysis

시험 결과의 문항 분석은 정량적 방법을 사용하여 어떤 문제를 채택해야 하는지, 어떤 문제를 수정해야 하는지, 어떤 문제를 폐기해야 하는지 판단하는 데 도움이 된다. 문항 분석은 개별 문항과 글로벌 시험 점수 사이의 관계뿐만 아니라 개별 문항의 용이성이나 난이도를 분석하는 데 사용될 수 있다. 예를 들어, 시험에서 높은 점수를 받은 학생이 문제를 맞힌다면 그 문제는 좋은 문제로 여겨질 것이다. 마찬가지로, 만약 시험에서 낮은 점수를 받은 학생이 질문에 잘못 대답한다면, 그 질문은 좋은 질문으로 여겨질 것이다. 항목 분석을 기반으로 시험의 수정 및 개선이 이루어질 수 있다.
Item analysis of test results uses quantitative methods to help make judgements about which questions need to be adopted, which questions need to be revised and which questions should be discarded. Item analysis can be used to analyse the ease or difficulty of individual questions as well as the relationship between individual questions and the global test score. For example if a student with a high score on the test answers a question correctly that question would be considered a good question. Equally, if a student with a low score on the test answers a question incorrectly, that question would be considered a good question. On the basis of item analysis, a revision and improvement of the test can be made (Cohen & Swerdlik 2010).

 

문항 난이도 지수
The item-difficulty index

만약 모든 학생들이 특정한 질문에 옳거나 틀리게 대답한다면, 그 질문은 좋은 질문이 아니며 검토할 필요가 있다. 그것은 너무 쉽거나 너무 어렵다. 학생에게 너무 쉽거나 너무 어려운 문제들은 학생의 능력에 대한 정보를 거의 제공하지 않는다. 항목 난이도 지수(항목 시설이라고도 함)는 시험 문제를 맞힌 학생 수의 백분율을 말하며 다음과 같이 계산한다.
If all students answer a particular question either correctly or incorrectly, that question is not a good question and needs examining. It is either too easy or too difficult. Questions which are too easy or too hard for a student contribute little information regarding the student's ability (Green et al. 1984). The item-difficulty index (sometimes also termed item facility) refers to the percentage of the total number of students who answered the test question correctly and is calculated as follows:

여기서 R은 문제를 맞힌 총 학생 수이고 N은 총 응답 수(정답 + 오답 + 빈 응답)입니다. 그 문제 번호는 i라고 불린다. P는 정답의 분수입니다. 예를 들어 100명 중 40명이 1번 문제를 맞혔을 경우 항목 난이도 지수는 다음과 같이 간단하게 계산된다.
Where R is the total number of students who answered the question correctly and N is the total number of responses (correct + incorrect + blank response). The question number is called i. P is the fraction of correct answers. For instance, if 40 of the 100 students answered question 1 correctly, the item-difficulty index is simply calculated as follows:

따라서 항목 난이도 지수의 값은 0부터 1까지(모든 사람이 질문에 올바르게 대답하지 않은 경우)이다. 또한 P 값이 클수록 질문이 쉬워집니다. P_i가 0.3과 0.8 사이에 있으면 해당 질문이 좋은 질문으로 간주됩니다.
Consequently the value of an item-difficulty index ranges from 0 (if no one answered a question correctly) to 1 (if everyone answered a question correctly). In addition, the larger the P value, the easier the question. If Pi is located between 0.3 and 0.8, the question is considered to be a good question.

그러나 객관적 시험에서 추측의 효과를 고려할 필요가 있다. 예를 들어, 5가지 옵션 객관식 문제를 추측할 확률은 0.20입니다. 이 경우 정답을 맞힐 확률과 1.00(모두 정답일 경우)을 더한 뒤 합을 2로 나누면 (0.20 + 1.00)/2 = 0.60이다. 반대로, 정답 확률이 0.5인 진-거짓 문제에서 수정된 문제 난이도는 0.75 즉, (0.5 + 1.0)/2이다. 이 경우 '양호' 문항은 각각 0.2~0.6과 0.5~0.75 사이의 항목 난이도를 가져야 한다.
However, the effects of guessing in objective tests needs to be considered. For example, the probability of guessing a five-option multiple choice questions is equal to 0.20. In order to calculate the corrected question difficulty in this case, we need to add the probability of getting an answer right and 1.00 (if everyone answered a question correctly) and then divide the sum by 2, that is, (0.20 + 1.00)/2 = 0.60. Conversely, the corrected question difficulty in a true-false question, where the probability of a correct answer is 0.5, is equal to 0.75, i.e. (0.5 + 1.0)/2. In these cases ‘good’ questions should have a range of item difficulty between 0.2–0.6 and 0.5–0.75, respectively.

데이비스는 '기회성공'을 위해 문제가 수정되어야 할 때 항목 난이도를 결정하기 위한 다음과 같은 일반 공식을 제시하였다(Davis 1952).
Davis has presented the following general formula for determining item difficulty when questions need to be corrected for ‘chance success’, (Davis 1952):

여기서 PDi는 문제 번호(i)에 대해 수정된 항목 난이도 지수, R은 문제 정답자 수, W는 문제 정답자 수, n은 문제 선택 수, K는 학생 수, KR은 미답자 수이다.그가 질문한다.
Where PDi equals the item-difficulty index corrected for the question number (i), R equals the number of students who answer a question correctly, W equals the number of students who answer a question incorrectly, n equals the numbers of choices in a question, K equals the number of students, and KR equals the number of students who do not answer the question.

문항-변별 지수
The item-discrimination index

문항 변별지수는 성적이 좋은 학생과 그렇지 않은 학생, 또는 '강한' 학생과 '약한' 학생을 얼마나 잘 구별할 수 있는지를 나타내는 값이다. 문항 변별 지수는 소문자 기울임꼴 "d"로 표시됩니다. d의 범위는 -1.00 ~ 1.00입니다. 이제 개별 질문에 대한 d-값을 계산하는 가장 일반적인 방법이 설명된다.
The item-discrimination index is a value of how well a question is able to differentiate between students who are high performing and those who are not, or between ‘strong’ and ‘weak’ students. The item-discrimination index is symbolised by a lowercase italic “d”. The range of d is −1.00 to 1.00. The most common method to calculate a d-value for individual questions is now described.

이 방법에서 시험관은 각 학생의 점수표에 따라 학생들을 두 그룹('높음'과 '낮음')으로 나눕니다. 이 분류를 기준으로 학생의 27%가 강자 집단, 27%가 약자 집단으로 분류된다. 일부 방법은 '상위 3분의 1'과 '하위 3분의 1'을 선호하지만, 27%를 기준으로 학생들을 두 그룹으로 나누면 d값의 민감도와 정밀도가 높아진다는 연구결과가 나왔다. 분명히 중위권 학생의 46%는 항목별 차별 지수 계산에서 제외된다.
In this method, the examiner divides students into two groups (‘high’ and ‘low’) according to the score sheet of each student. On the basis of this classification, 27% of the students are categorised as a strong group and 27% as a weak group. Some methods prefer a ‘top third’ and a ‘bottom third’ but studies have shown that when students are divided into two groups on the basis of 27% the sensitivity and precision of the value of d is increased (Kelley 1939; Cohen & Swerdlik 2010). Obviously 46% percent of the middle-scoring students are excluded from the calculation of the item-discrimination index.

다음으로, (두 그룹의) 특정 질문에 정확하게 답하는 학생의 수가 계산됩니다. 다음 공식은 d-값을 계산하는 데 사용됩니다.
Next the number of students (in both groups) who answer a particular question correctly is calculated. The following formula is used to calculate a d-value.

여기서 U는 상위 그룹의 정답 수와 같으며, L은 하위 그룹의 정답 수와 같으며, n은 전체 학생 수의 27%입니다. 예를 들어, 한 생리학 강사가 총 112명의 의대생들에게 신경생리학 테스트를 실시했습니다. 강사는 시험 점수의 상위와 하위 27%를 분리했는데, 각 그룹별로 총 28명의 학생이 있었다. 강사는 '강한'(상위) 그룹 18명이 1번 문제를 맞혔고, '약한'(하위) 그룹 10명이 1번 문제를 맞혔다고 관찰한다. 따라서 d-값은 0.28 = [(18–10)/28]과 같습니다. d 값이 높을수록 시험 문제가 더 좋고 변별력이 더 높다.

Where U equals the number of correct answers in the upper group, L equals the number of correct answers by the lower group and n is 27% of the total number of students (Cohen & Swerdlik 2010). For example, a physiology lecturer gave the neurophysiology test to a total of 112 medical students. The lecturer isolated the top and bottom 27% of the test scores, with a total of 28 students in each group. The lecturer observes that 18 students in the ‘strong’ (top) group answered question 1 correctly and 10 students in the ‘weak’ (bottom) group answered correctly question 1. Therefore, the d-value is equal to 0.28 = [(18–10)/28]. The higher the d value, the better and more discriminating the test question.

주어진 문항이 d-값이 높으면 매우 변별력이 있을 가능성이 높다. 그러나 주어진 문항의 d-값이 음수일 경우 '강한' 학생은 오답을, '약한' 학생은 정답을 맞힌다는 것을 의미한다. 그러한 질문들은 수정되거나 폐기되어야 한다.
If a given question has a high d-value, it is likely to be very discriminating. However, a negative d-value on a given question indicates that the ‘strong’ students answered the question incorrectly and the ‘weak’ students answered the question correctly. Such questions should either be revised or discarded.

점 이직렬 상관 계수
The point bi-serial correlation coefficient

항목-차별 지수를 계산하는 데 널리 사용되는 또 다른 방법은 포인트 바이-시리얼 상관 계수이다. 이 통계량은 시험의 특정 문제(정답 또는 오답)와 총 시험 점수(Kapplan 2008) 사이의 관계를 나타내는 통계량입니다. 문제는 '맞음'에 1점, '틀림'에 0점입니다. 시험 문제의 정답 합계는 총 학생의 점수를 산출한다. 각 질문에 대한 항목 식별 지수를 계산하기 위해 다음 공식이 사용됩니다.
Another widely used method for computing the item-discrimination index is the point bi-serial correlation coefficient. This is a statistic that indicates the relationship between a particular question (correct or incorrect) on a test and the total tests score (Kaplan 2008). Questions are scored 1 for ‘correct’ and 0 for ‘wrong’. The sum of correct answers of test questions produces the total student's score. To calculate the item-discrimination index for each question the following formula is used:

여기서 Rpbi는 점 이중 직렬 상관 계수와 같다. 
Where Rpbi equals the point bi-serial correlation coefficient, 

 항목을 올바르게 답한 학생의 평균 점수(1s로 코딩된 학생)와 같다. 
 equals the mean score of students answering the item correctly (those coded as 1s), 

 이 값은 학생이 항목을 잘못 대답한 평균 점수(0s로 코드화된 점수)와 같으며 St는 전체 시험의 표준 편차와 같습니다. P는 항목을 올바르게 답하는 학생의 비율입니다. Rpbi 값이 높을수록 질문이 더 잘 변별합니다. Rpbi 값의 범위는 -1.0 ~ +1.0입니다. 부정적인 Rpbi가 포함된 질문은 수정하거나 폐기해야 합니다.
 equals the mean score of students answering the item incorrectly (those coded as 0s), and St equals the standard deviation for the entire test. P equals the proportion of students answering the item correctly. The higher the Rpbi value, the better the question is at discriminating. The Rpbi values range from −1.0 to +1.0. A question with a negative Rpbi should be revised or discarded.

통계적 유의성
Statistical significance

객관식 문제의 자질을 평가하는 마지막 방법은 'R조'라고 불리는 항목과 'W조'라고 불리는 항목에서 정답이 나온 학생을 두 그룹으로 나누는 것이다. 'R조'와 'W조'의 총점 평균이 계산된다. 그룹의 평균 점수 
The last method for the assessment of the quality of a multiple-choice question is to divide students into two groups, those who answered the item correctly, called ‘group R’, and those who answered the item incorrectly, called ‘group W’. The mean of the total score of ‘group R’ and ‘group W’ is calculated. The mean score of group 

 그룹의 평균 점수보다 낮거나 높을 수 있음 
 could be below or above the mean score of group 

. 따라서 고려해야 할 귀무 가설은 다음과 같다.
. Consequently, the null hypothesis that should be considered is that ‘

 와 같다 
 is equal to 

', '라는 대립 가설에 반하여 저울질했다.
’, weighed against the alternative hypothesis that ‘

 보다 크다 
 is greater than 

'. 귀무 가설은 정답을 선택한 학생들의 평균 점수와 오답 사이에 차이가 없다는 것을 의미한다. 귀무 가설을 검정하기 위해 t-검정을 사용하여 두 그룹의 평균 여부를 평가할 수 있습니다.
’. The null hypothesis means that there is no difference between the mean scores of the students who chose the correct answer and the wrong answer. To test the null hypothesis a t-test can be used that assesses whether the means of two groups (

 그리고. 
 and 

)은 통계적으로 서로 다르다. p-값이 0.05보다 작으면 귀무 가설을 기각하고 대립 가설을 받아들입니다. 이것은 시험 문제가 학생들을 두 개의 강/약 그룹으로 나누었다는 것을 의미한다.
) are statistically different from each other. If the p-value is less than 0.05, we will reject the null hypothesis and accept the alternative hypothesis. This means that the test question has divided students into two separate strong/weak groups.

신뢰성.
Reliability

신뢰도를 계산하는 주요 방법들이 설명되고 설명될 것이다. 점-이진 상관 계수와 크론바흐의 알파를 사용한 예는 테스트의 신뢰성이 어떻게 향상될 수 있는지를 설명하는 데 사용될 것이다. OSCE 검사에서 평가자 간 및 평가자 내 신뢰성의 평가가 설명될 것이다.
The main methods of calculating reliability will be described and explained. Examples of the use of point-biserial correlation co-efficient and Cronbach's Alpha will be used to explain how the reliability of tests can be improved. The evaluation of inter and intra-rater reliability in OSCE examinations will be described.

[신뢰성]을 설명하고 정의하는 전통적인 방법은 [평가의 재현성, 안정성 및 내부 일관성]과 관련이 있다. 심리측정학 문헌에서 신뢰성은 일반적으로 측정 도구의 일관성을 의미한다.

  • 예를 들어, 학생이 같은 시험을 반복적으로 치르고 같은 점수를 받는다면 시험은 안정적이다.
  • 신뢰성은 다른 경우에 적용될 때 유사한 결과를 생성하는 테스트의 능력을 측정하는 척도입니다.
    • 같은 시험에서 다른 경우에 얻은 점수 차이가 클 때, 시험은 신뢰할 수 없고 치명적인 결함이 있다. 예를 들어, 동일한 성취도 테스트가 한 학생에 대해 서로 다른 시점에 62, 85, 53 및 92와 같은 점수를 낸다면, 이 테스트는 일관성이 없기 때문에 조사가 필요합니다.
  • 검정의 내부 일관성은 동일한 기본 구조를 측정하기 위해 개별 항목이 함께 얼마나 잘 기능하는지와 관심 구조를 얼마나 정확하고 정확하게 측정할 수 있는지를 측정하는 척도이다.

The traditional way of explaining and defining reliability is that it is concerned with the reproducibility, stability and internal consistency of an assessment. In the psychometric literature, reliability more generally refers to the consistency of a measurement tool (Cohen & Swerdlik 2010).

  • For example a test is stable if a student repeatedly takes the same test and obtains the same mark.
  • Reliability is a measure of a test's ability to generate similar results when applied on different occasions. When the difference of scores obtained by the same test on different occasions is high, the test cannot be reliable and is fatally flawed.
    • For example, if the same achievement test delivers scores for a student of 62, 85, 53 and 92 in different points in time, then this test is not consistent and needs to be investigated.
  • The internal consistency of a test is a measure of how well the individual items are functioning together to measure the same underlying constructs and how accurately and precisely can it measure the construct of interest.

[신뢰도]에 대한 또 다른 사고방식은 학생의 [관찰된 시험 점수]와 ['참' 점수]의 차이의 함수라는 것이다. 관찰된 점수는 학생이 실제 시험에서 얻은 점수입니다. 진정한 점수는 학생이 자신의 기본 능력을 정확하게 측정할 때 (가정적인) 시험에서 얻는 점수이다. [관측된 시험 점수]와 [실제 점수] 사이에 유의한 차이가 있으면 시험의 신뢰성이 낮으며, 그 반대도 마찬가지이다.

Another way of thinking about test reliability is that it is a function of the difference between the observed test score of the student and his/her ‘true’ score. The observed score is the score that a student obtains from an actual test. The true score is the score that a student obtains from a (hypothetical) test when it accurately measures his or her underlying ability. If there is a significant difference between an observed test score and a true score, the reliability of the test is low, and vice versa.

그러나 신뢰성에 대한 보다 일반적인 견해는 [심리측정학적 측정에 내재된 오류]와 관련이 있다는 것이다. 평가 언어에서 측정 오류를 일으키는 요인은 크게 두 가지, 외부 및 내부 요인입니다.

  • [외적 요인]은 시험 상황과 시험 상황에 따라 달라지는데, 예를 들면 실내 온도, 추측 정답, 정서적 문제, 신체적 불편함, 수면 부족 등이다.
  • [내부 요인]은 항목 샘플링(시험 항목 수 제한) 및 항목 구성 방식 등 시험의 품질과 양에 따라 달라집니다. 채점자와 채점 시스템도 잠재적인 오류의 원인이 될 수 있다.

However, a more general view of reliability is that it is concerned with the error inherent in psychometric measurements. In the language of assessment, there are two main factors that cause errors in measurements, external and internal factors (Anastasi & Urbin 1997).

  • The external factors depend on the test situations and administrations, such as the room temperature, guessing answers, emotional problems, physical discomfort and lack of sleep.
  • The internal factors depend on the quality and quantity of the test, such as item sampling (the limited number of test items) and the way in which the item is constructed. Scorers and scoring systems can also be a potential source of error.

고전적인 시험 이론은 개인이 특정한 양의 지식, 예를 들어 '진정한 점수'에 대한 기호 T를 가지고 있다고 제안한다. 그러나 이 점수의 측정값 또는 '관찰된 점수'인 X측정 오류 E로 인해 교란됩니다. 따라서,
Classical test theory proposes that an individual possesses a particular amount of, for example, knowledge, given the symbol T for ‘true score’. However the measurement of this score, X, or the ‘observed score’ is confounded by the errors of measurement, E. Thus,

고품질 평가 설계자가 직면한 과제는 이러한 오류의 원인을 식별하고 최소화하는 것이어야 한다. 크기나 온도에 대한 물리적 측정은 상대적으로 제한적이고 쉽게 통제되는 측정 오류를 가질 수 있는 반면, 인지적, 정신운동적 또는 인간에 대한 정서적 측정은 통제 불가능한 큰 오류를 가질 수 있다. 신뢰성에 영향을 미치는 세 가지 오류 원인은 [테스트, 수험생(학생) 및 테스터]에서 비롯됩니다. 많은 경우 평가를 수행하기 전에 오류를 식별하고 제어할 수 있지만 모든 가능한 오류를 추정하는 것은 현실적으로 불가능하다. 결과적으로, 시험의 진정한 신뢰성 계수true reliability coefficient 를 결정하는 것은 실용적이지 않다. 따라서, 의학 교사는 아래에 설명될 신뢰성 추정 기법을 사용하여 시험을 실시한 후 획득한 데이터로부터 시험의 신뢰성을 추정해야 한다.
The task facing the designer of high quality assessments should be to identify and minimise these sources of error. Physical measurements of size or temperature may have relatively limited and easily controlled errors of measurement whereas cognitive, psychomotor or affective measurements on human beings may have large, uncontrollable and even unknown errors. The three sources of error influencing reliability derive from: the test, the testee (student) and the tester. In many cases errors can be identified and controlled before an assessment is undertaken but it is practically impossible to estimate every possible error. As a result, the determination of the true reliability coefficient of a test is not practicable. Therefore, medical teachers have to estimate the reliability of a test from the data acquired after the test has been administered using the techniques for estimating reliability to be described below.

테스트
The test

테스트는 서면 지식 기반 MCQ, OSCE 스테이션 또는 다른 형태의 심리 측정 평가일 수 있다. [생산 및 해석 과정]과 [테스트 환경]에 영향을 미치는 프로세스에서 오류가 발생합니다.
The Test can be a written knowledge-based MCQ, an OSCE station or some other form of psychometric assessment. Errors are created in its production and interpretation and by processes impacting on the testing environment:

  • 애매한 질문
  • 너무 길다(피로)/너무 짧다
  • 잘못된 질문
  • 비균질 질문지
  • 너무 어렵다/너무 쉽다
  • 서투른 지시
  • 너무 덥다/너무 춥다/너무 시끄럽다
  • 시간이 충분하지 않아요.
  • 조명 수준
  • 잘못된 코드화된 응답
  • Ambiguous questions
  • Too long (fatigue)/Too short
  • Invalid questions
  • Non-homogeneous question paper
  • Too hard/too easy
  • Poor instructions
  • Too hot/too cold/too noisy
  • Not enough time
  • The level of lighting
  • Responses which are coded incorrectly

테스터
The tester

검사자는 MCQ와 같은 필기 시험을 작성할 책임이 있는 사람 또는 OSCE 또는 기타 실제 평가의 경우 평가 기준을 사용하고 해석할 책임이 있는 사람일 수 있다. 오류는 평가 원칙 또는 항목 구성에 대한 이해 부족 또는 평가 기준 적용에 대한 교육 부족으로 인해 발생할 수 있습니다.
The tester can be the person responsible for creating a written test such as an MCQ or, in the case of an OSCE, or other practical assessment, the person who is responsible for using and interpreting the assessment criteria. Errors can be created from a lack of understanding of assessment principles or item construction or by a lack of training in applying assessment criteria:

  • 학습 목표에 대한 이해 부족
  • 평가 기준에 대한 잘못된 해석
  • 평가 기준의 일관성 없는 적용
  • 점수 체계 또는 점수 체계 불일치
  • 성차별적/인종차별적 편견
  • 체계적인 타이핑 오류
  • 평가 교육 부족
  • 평가자간 변동성
  • 채점 주관성
  • Lack of understanding of learning objectives
  • Poor interpretation of assessment criteria
  • Inconsistent application of assessment criteria
  • Inconsistent scoring system or mark scheme
  • Sexist/racist bias
  • Systematic typing errors
  • Lack of assessment training
  • Inter-rater variability
  • Subjectivity in scoring

수험생
The testee

수험자는 시험 대상자이다. 개인의 본질적인 능력 때문이 아닌 오류와 변화는 스트레스나 질병에 대한 반응이나 적절한 교육 또는 학습 준비 부족으로 인해 발생할 수 있다.

The testee is the person being tested. Error and variation not due to the intrinsic capacity of the individual can be caused by their reaction to stress or illness or by a lack of appropriate teaching or learning preparation:

  • 스트레스
  • 치료 및 질병
  • 수업부족
  • 일관성 없는 교육
  • 열악한 학습 환경
  • 적절한 자원 부족
  • 연습 기회 부족
  • 수면부족
  • Stress
  • Therapy and illness
  • Lack of teaching
  • Inconsistent teaching
  • Poor learning environment
  • Lack of appropriate resources
  • Lack of practice opportunities
  • Lack of sleep

신뢰성 추정치
Reliabilities estimates

테스트-재테스트 신뢰성 추정치
Test–retest reliability estimates

테스트-재테스트 신뢰성은 동일한 학생과 다른 시간에 동일한 테스트를 수행함으로써 추정됩니다. 두 시험에서 학생들의 점수 사이의 상관계수(ra)는 시험-재시험 신뢰성의 정량적 척도로 사용된다.
The test-retest reliability is estimated by performing the same test at different times with the same students. The correlation coefficient (ra) between students’ scores in the two tests is used as a quantitative measure of the testretest reliability.

시험-재시험 신뢰성의 한계는 시간의 경과가 두 번째 시험에서 학생의 반응에 영향을 미칠 수 있다는 것이다. 왜냐하면 학생들은 새로운 것을 배우고, 어떤 것을 잊거나, 새로운 기술을 습득할 수 있기 때문이다.
A limitation of the testretest reliability is that the passage of time can influence the student's response in the second test. This is because students may learn new things, forget some things or acquire new skills.

병렬 형식 신뢰성 추정치
Parallel-forms reliability estimates

[병렬 형식]의 시험을 사용하면 시험-재시험 신뢰성에 관련된 어려움을 피할 수 있다. 신뢰도를 추정하기 위해 검정의 두 표본이 두 가지 다른 경우에 검정됩니다. 첫 번째 경우, 학생들은 한 가지 형태의 시험으로 시험을 치른다. 두 번째 경우, 같은 학생들이 평행한 형태의 시험으로 시험을 치른다. 병렬 시험 양식은 평균 항목 난이도가 같아야 한다. 또한, 평행한 형태로 관찰된 시험 점수의 평균과 표준 편차는 동일해야 한다. 병렬 형식 신뢰도를 추정하는 것은 테스트-재테스트 신뢰도를 추정하는 것과 유사합니다. 두 시험 병렬 양식에서 학생들의 점수는 병렬 양식 신뢰도의 추정치를 얻기 위해 상관관계가 있다.

The use of parallel forms of the test helps avoid the difficulties involved in testretest reliability. To estimate the reliability, two different samples of a test are tested on two different occasions. In the first occasion, students are tested with one form of the test. On the second occasion, the same students are tested with a parallel form of the test. Parallel test forms should have the same average item difficulty. In addition, the mean and the standard deviations of observed test scores in parallel forms should be equal. Estimating parallel forms reliability is similar to estimating testretest reliability. Students’ scores on the two test parallel forms are correlated to obtain an estimate of parallel-forms reliability.

병렬 형식 신뢰도 추정치의 한 가지 분명한 한계는 시험 점수가 피로, 동기부여 및 학습과 같은 요인에 의해 영향을 받을 수 있다는 것이다.

One obvious limitation of estimates of parallel-forms reliability is that test scores may be affected by factors such as fatigue, motivation and learning.

양분 신뢰도 추정치
Split-half reliability estimates

전체 테스트의 신뢰성을 추정하기 위해, 단일 테스트를 수행한 후 항목을 반으로 분할할 수 있습니다. 홀수 번호는 시험의 절반에 해당하고 짝수 번호는 나머지 절반에 해당된다. 스피어맨-브라운 상관 관계를 사용하여 신뢰성 계수에 대한 검정 단축 효과를 추정할 수도 있습니다. 테스트의 크기를 적절하게 줄이면 관리 시간과 학생들의 시험 피로를 최소화할 수 있습니다(Cohen & Swerdlik 2010). 
To estimate the reliability of a whole test, a single test can be administrated followed by a splitting of the items into halves; odd-numbered items to one half of the test and even-numbered to the other half. A SpearmanBrown correlation can also be used to estimate the effect of shortening the test on the reliability coefficient. Reducing the size of a test appropriately can minimise administration time and students’ exam fatigue (Cohen & Swerdlik 2010).

알파 계수
Coefficient alpha

알파 값은 시험의 내부 일관성 신뢰성 또는 항목 동질성을 추정하는 데 널리 사용된다(Henson 2001; Streiner 2003). 앞에서 설명한 신뢰도 지수와는 달리 테스트는 한 번만 수행되며 알파 통계량을 계산하는 데 사용되는 점수입니다. 알파는 시험 항목 집합의 상호 연관성에 대한 추정치로 간주할 수 있다(Schmitt 1996). 알파 값은 또한 검사 항목이 얼마나 유사하거나 고유한지를 나타냅니다(Cortina 1993). 알파 계수는 이분법 또는 다분법 항목을 사용한 검정에서 사용할 수 있습니다. 값은 0에서 1까지이며 0.70보다 커야 하지만 0.90보다 크면 안 됩니다. 획득한 점수는 모든 시험 항목의 반영이기 때문에, 시험관들은 시험에서 높은 알파 값을 찾는다. 그러나 알파 값이 높은 것이 보통 더 좋지만 항상 그런 것은 아닙니다. 단일 도메인을 측정하는 검정에는 항목 간의 이질성이 어느 정도 포함될 수 있습니다. 테스트가 단일 도메인을 사용하지만, 하위 도메인이 3개 또는 4개인 경우, 각 하위 도메인의 동질성은 테스트 전체보다 더 클 수 있습니다. 이 경우 알파 값이 0.90을 초과하면 안 됩니다. 이 상황에서 알파의 큰 값은 '항목 간 콘텐츠의 불필요한 중복'을 나타내며 동질성보다는 중복성에 더 중점을 둔다(Streiner 2003).
The value of alpha is widely used for estimating the internal consistency reliability or item homogeneity of a test (Henson 2001; Streiner 2003). In contrast to previously described reliability indices the test is only administered once and the scores used to calculate the alpha statistic. Alpha can be considered as an estimate of the interrelatedness of a set of test's items (Schmitt 1996). The value of alpha also indicates how similar or unique test items are (Cortina 1993). The alpha coefficient can be used on either tests with dichotomous or polytomous items. It ranges in value from 0 to 1 and should be above 0.70, but not much than 0.90 (Nunnally & Bernstein 1993; Streiner 2003). As the obtained score is a reflection of all the test's items, examiners seek for a high value of alpha on a test. However, although a high value for alpha is usually better, it is not always the case. Tests that measure a single domain can contain some degree of heterogeneity among the items. If a test taps a single domain but has three or four sub-domains, the homogeneity of each sub-domain can more than the test as a whole. If this is the case, the value of alpha should not be over 0.90. In this situation a large value of alpha is an indication of ‘unnecessary duplication of content across items and points more to redundancy than to homogeneity’ (Streiner 2003).

Kuder-Richardson 신뢰성
Kuder–Richardson reliability

이전에 지적했듯이, 더 높은 테스트 동질성은 테스트 내에서 더 높은 내부 일관성을 생성합니다. 성취도 시험에서 내부 일관성 신뢰성을 추정하기 위한 가장 일반적인 통계적 절차는 쿠더-리처드슨 20(KR-20)이다. 알파 계수와 달리 KR-20은 객관적인 테스트와 같은 정답 혹은 오답으로 채점되는 [이분법 문항]의 내부 일관성을 결정하는 데 사용된다. KR-20의 값은 시험 항목 간 관계의 강도에 정비례한다. 이 값은 0에서 1 사이의 범위이며, 0은 신뢰성의 부족을 나타내고 1은 신뢰성이 높은 검정을 나타냅니다. 
As previously pointed out higher test homogeneity generates a higher internal consistency within a test. The most common statistical procedure for estimating the internal consistency reliability in achievement tests is KuderRichardson 20 (KR-20). In contrast to coefficient alpha, KR-20 is used to determine the internal consistency of dichotomous items such as objective tests which can be scored as either right or wrong. The value of KR-20 is directly proportional to the strength of the relationship between the items on the test. It ranges between 0 to 1 where 0 represents a lack of reliability and 1 represents a fully reliable test.


항목 동질성이 시험 신뢰성에 미치는 영향을 요약하면, 내부 일관성 신뢰성에 대한 두 가지 다른 지수를 사용할 수 있다. 
알파 계수 및 KR-20. 신뢰도 값이 낮을수록 시험의 모든 항목이 다양한 지식이나 성능을 측정한다는 점에 유의해야 한다. 또한 신뢰도 지수는 시험과 학생들의 이질성에 영향을 받는다. 장기간의 시험과 이질적인 학생들은 더 높은 내부 일관성 신뢰성을 갖게 될 것이다(Anastasi & Urbin 1997).

In summary to estimate the impact of item homogeneity on test reliability, two different indices of internal consistency reliability are available: coefficient alpha and KR-20. It should be noted that a lower reliability value indicates that all the items on the test measure a diversity of knowledge or performance. Furthermore, the reliability index is affected by the test and students’ heterogeneity. Longer tests and heterogeneous students will have a higher internal consistency reliability (Anastasi & Urbin 1997).

OSCE의 심리학적 특성
Psychometric properties of OSCE

OSCE 스테이션의 심리측정학적 분석은 지식 기반 시험에 비해 의학 교육 문헌에 덜 보고되었다. 시험 목적에 따라 시험장 수가 달라질 수 있으며 각 시험장마다 응시자의 특정 능력을 평가할 수 있다. 특정 행동을 정량화하기 위해, 특정 행동에 해당하는 체크리스트 항목은 컨센서스를 통해 콘텐츠 전문가가 객관적으로 고안한다. 시험관은 특정한 행동이 이분법적으로 또는 척도로 능숙하게 수행되었는지 여부를 확인하여 각 스테이션의 학생을 채점한다. 각 스테이션의 마지막에, 시험관들은 그들의 점수와 학생들의 성적에 대한 피드백을 기록합니다. 스테이션에 있는 item의 개수는 다를 수 있습니다. 예를 들어, 점검표에 21개의 항목이 있는 스테이션 1에서 학생은 15개의 임상 조치를 유능하게 수행할 수 있다. 따라서, 그 또는 그녀는 역 1에서 21점 만점에 15점의 총점을 받는다. OSCE가 25개의 스테이션로 구성되어 있고 학생 성취도를 측정하기 위해 등급 척도를 사용하는 경우 25개의 등급이 계산되고 각 학생에 대한 평균이 계산된다. OSCE 이전에, 각 스테이션에 대한 전체 통과 마크는 표준 설정에 의해 결정된다. 다른 평가 절차에는 점수와는 무관하게 주어진 합격, 불합격 또는 경계선에 대한 심사관의 글로벌 판단이 포함될 수 있다.
The psychometric analysis of OSCE stations has been less reported in the medical education literature in comparison to knowledge based tests. Depending on the purpose of the examination, the number of stations can vary and each station can assess a specific ability of the candidate. To quantify a specific behaviour, checklist items, which correspond to specific actions, are objectively devised by content experts through consensus. The examiner marks the student in each station by checking whether or not a given action was performed competently either dichotomously or on a scale. At the end of each station, examiners record their scores and feedback on the performance of students. The number of items in each station can vary. As an example, in station 1 with 21 items on the checklist, a student might competently perform 15 clinical actions. Therefore, he or she receives a total score of 15 out of 21 from station 1. If the OSCE consists of 25 stations and uses a rating scale for measuring student performance 25 ratings are calculated and then the mean for each student. Before the OSCE, the overall pass mark for each station is decided by standard setting. Other assessment procedures might include a global judgement by the examiners of pass, fail or borderline given independently of any scoring.

OSCE의 스테이션 분석
Station analysis of OSCEs

OSCE에서 각 스테이션은 분석 항목으로 간주된다. 첫 번째 공통 분석은 OSCE의 [모든 스테이션 간의 상관 관계]를 나타내는 OSCE의 [스테이션 간 신뢰도]를 결정하는 것이다. 스테이션 간 신뢰도 지수를 계산하는 것은 동질성을 평가하는 데 유용하다. OSCE는 단일 특성을 측정하는 관측소를 포함하는 경우 동질적이다.
In the OSCE, each station is regarded as an item of analysis. The first common analysis is to determine the inter-station reliability of the OSCE which refers to the degree of correlation between all the stations on the OSCE. Calculating the index of inter-station reliability is useful in assessing homogeneity. OSCEs are homogeneous if they contain stations that measure a single trait.

쿠더-리처드슨 20 공식(KR-20)은 의학 교사들이 스테이션 간 신뢰성을 추정할 수 있도록 한다. KR-20 공식은 다음과 같다.

The Kuder-Richardson 20 formula (KR-20) allows medical teachers to estimate inter-station reliability. The KR-20 formula is



여기서 rKR20은 전체 OSCE의 신뢰성 계수를 제공하며, K는 OSCE의 스테이션 수, λ2는 총 스테이션 점수의 분산, p는 스테이션을 통과한 학생의 비율, q는 스테이션을 통과하지 못한 학생의 비율(q = 1 - p), Zpq는 모든 스테이션의 pq 곱의 합계이다. K-R20은 SPSS를 사용하여 계산됩니다. 신뢰도 계수가 높을수록 OSCE는 균일하다.

Where rKR20 provides a reliability coefficient of the whole OSCE, K is the number of stations in the OSCE, σ2 is the variance of total station scores, p is the proportion of students who pass the station, q is the proportion of students who fail the station (q = 1 − p), and Zpq is the sum of the pq products over all stations. K-R20 is calculated using SPSS. The higher the reliability coefficient, the more homogenous the OSCE.

신뢰도 계수가 낮다는 것은 OSCE 검사에 기여하는 임상역량 평가에서 많은 스테이션의 성능이 좋지 않다는 것을 보여준다.
A low reliability coefficient shows that a number of stations are performing poorly in assessing the clinical competencies contributing to the OSCE examination.

신뢰성 계수가 낮으면 일부 관측소가 공통 핵심 임상 성과를 동등하게 공유하지 않으므로 수정하거나 폐기해야 한다. 따라서 각 스테이션과 총 OSCE 점수의 상관관계를 계산하여 검출하는 것이 중요하다. 여기에는 앞서 설명한 바와 같이 점-이중 선형 상관 방법을 사용하는 것이 포함됩니다. 항목(스테이션) 총상관성 검사를 통해 의료교사는 어떤 스테이션을 수정하거나 폐기해야 하는지 파악할 수 있다.
If the reliability coefficient is low it suggests that some stations do not share equally in the common core clinical performance and need to be revised or discarded. Therefore it is important to detect them by computing the correlation of each station with the total OSCE score. This involves using the point-biserial correlation method as previously described. The item (station) total correlation test allows medical teachers to identify which station needs to be revised or discarded.

OSCE 시험의 동질성을 증가시킬 수 있는 또 다른 분석은 평균 측점 점수와 평균 총 OSCE 점수 사이의 상관관계를 찾는 데 사용할 수 있는 피어슨 상관관계를 사용하는 것이다. 각 스테이션이 OSCE 동질성에 기여하고 있으므로 전체적으로 OSCE 시험과 상관관계가 없는 스테이션은 수정하거나 폐기할 수 있다. 시험이나 OSCE 시험의 동질성과 이질성은 다음 절에서 추가로 논의되는 중요한 문제이다.
Another analysis that can increase the homogeneity of an OSCE exam is the use of Pearson's correlation which can be used to find a correlation between mean station scores and the mean total OSCE score. As each station is contributing to OSCE homogeneity, those stations that do not correlate with the OSCE exam as a whole can be revised or discarded. The homogeneity and heterogeneity of a test or an OSCE exam is an important issue that is further discussed in the next section.

품목의 동질성과 이질성
Homogeneity and heterogeneity of the items

시험의 문항들이 단일 특징을 측정하는 경우 시험을 균질하다고 합니다. 즉, 동질성은 테스트가 단일 영역을 두드리는 정도이며 다른 능력을 측정하는 항목은 포함하지 않습니다. 예를 들어, 심혈관 생리학 시험은 모든 의학 생리학이 아니라 심혈관 시스템에 대한 지식을 평가해야 한다. 테스트의 항목은 항목 풀의 랜덤 샘플에서 가져와 단일 도메인을 측정해야 합니다. 이 항목들은 또한 서로 조금 다른 정도로 서로 상관되어야 한다(Streiner 2003).
If the items of a test measure a single feature, the test is termed homogenous. In other words, homogeneity is the extent to which a test taps a single domain and does not include items that measure other abilities. For example, a test of cardiovascular physiology should assess knowledge of the cardiovascular system, not all medical physiology. It should be noted that items on a test should come from a random sample of the item pool and measure a single domain. These items should also correlate with each other to varying degrees (Streiner 2003).

테스트 동질성과는 대조적으로, 이질적 테스트의 항목은 서로 다른 도메인이나 속성을 사용합니다. 위의 예에서 심혈관 시스템의 항목은 한 영역을 두드리는 반면 의학 생리학 항목은 심혈관 시스템을 측정할 뿐만 아니라 신장, 폐, 위장 시스템 등을 측정한다.

  • [동질적 객관식 시험]에서 같은 점수를 받은 사람들은 시험한 영역에 대해 비슷한 지식을 가지고 있다.
  • [이질적 객관식 시험]에서 같은 점수를 받은 사람은 시험 영역에 대한 지식이 다를 수 있다.

In contrast to test homogeneity, the items of a heterogeneous test tap different domains or attributes. In the above example the items on the cardiovascular system tap one area while the items on medical physiology not only measure the cardiovascular system but also measure renal, lung, gastrointestinal systems and so forth.

  • Those who receive the same score on a multiple-choice homogenous test have a similar knowledge in the area tested.
  • On the other hand, those who receive the same score on a multiple-choice heterogeneous test may have different knowledge in the areas tested (Cohen & Swerdlik 2010).

이것은 이질적인 시험에서 나온 시험 점수가 동질적인 시험보다 더 모호하다는 것을 보여준다. 이질적인 의학 생리학 테스트에서 존과 사라가 모두 30점을 받는다고 상상해 보세요. 시험에서 두 사람의 지식이나 성적이 동등했다고 단정할 수는 없다. 30점은 다양한 조합을 통해 얻을 수 있다. 존은 10개의 심혈관 생리학 항목, 10개의 감각 생리학 항목, 10개의 호흡기 생리학 항목, 그리고 신경 생리학이나 위장학 항목에는 정답이 없을 수 있다. 반면 사라는 감각생리학 항목 5개, 호흡생리학 항목 10개, 신경생리학 항목 15개를 맞혔을 수 있으며 심혈관 생리학에 대해서는 정답이 없다. 보다 구체적인 평가 데이터가 필요한 경우 각 테스트가 단일 영역을 측정하는 여러 동종 테스트를 개발하는 것이 좋습니다.
This simply illustrates that test scores that come from a heterogeneous test are more ambiguous than a homogenous test. Imagine that in a heterogeneous medical physiology test, John and Sarah both receive a score of 30. One cannot conclude that knowledge or performance of both on the test was equal. The score of 30 can be obtained through a variety of combinations. John may have correctly answered 10 cardiovascular physiology items, 10 sensory physiology items, 10 respiratory physiology items and none on neurophysiology or gastroenterology. Sarah by contrast, may have correctly answered 5 sensory physiology items, 10 respiratory physiology items and 15 neurophysiology items and none on cardiovascular physiology. If more specific assessment data is required it is better to develop several homogenous tests in which each test measures a single domain.

[시험의 동질성]은 시험의 모든 문제가 [동일한 구성 요소] 또는 특성을 측정하도록 보장하므로 [구성 타당성]의 지표이기도 하다. 시험 설계자가 측정하려는 특정 특성을 정확하게 반영하는 시험 정도를 평가하기 위해 시험 설계자는 시험 전에 시험 또는 OSCE 시험의 타당성을 결정해야 한다. 
The homogeneity of a test is also an indicator of construct validity as it ensures that all the questions on the test measure the same construct or trait. It should be noted that test designers should determine the validity of a test or an OSCE exam before an examination in order to assess the degree to which the test accurately reflects the specific trait that the test designer is attempting to measure.

표준 측정 오차(SEM)
The standard Error of measurement (SEM)

검사 후 분석과 관련된 마지막 유용한 개념은 표준 측정 오차(SEM)이다. SEM은 개인의 시험 점수에 내재된 오류의 양에 대한 추정치를 제공한다. 이 추정은 평가자가 개인의 시험에서 관찰된 점수와 실제 점수 사이의 불일치를 결정하는 데 도움이 된다. 시험 신뢰성 추정치와 SEM 사이에는 연관성이 있다. 시험 [신뢰도 추정치]가 클수록 SEM은 낮아집니다. 시험의 신뢰성과 표준 편차의 추정치가 결정되면 SEM은 다음과 같이 계산된다.

One final useful concept concerned with post-exam analysis is the standard error of measurement (SEM). The SEM provides an estimate of the amount of error inherent in an individual's test score (Cohen & Swerdlik 2010). This estimation helps assessors to determine the discrepancies between an individual's observed score on the test and his/her true score. There is a link between the test reliability estimate and the SEM. The larger the test reliability estimate, the lower the SEM. If the estimate of the reliability of a test and its standard deviation are determined, the SEM is calculated by the following below:

 

SEM이 측정의 표준 오차인 경우, SD는 학생 그룹에 의한 시험 점수의 표준 편차와 같으며 r은 시험의 신뢰도 계수와 같다. 어떤 의대생이 시험에서 50점(100점 만점)을 획득했다고 가정합니다. 테스트의 [표준 편차]와 [신뢰도 계수(예: 분할-반신뢰도)]가 각각 10과 0.74인 경우 SEM은 5입니다. 

Where SEM is equal to the standard error of measurement, SD is equal to the standard deviation of test scores by a group of students and r is equal to the reliability coefficient of the test. Assuming a medical student achieved a score of 50 (out of 100) on a test. If the test had a standard deviation and a reliability coefficient (e.g. split—half reliability) of 10 and 0.74, respectively, then the SEM is 5 (SEM = 10 

 = 5). = 5).

SEM 값을 해석하기 전에 정규 분포에서 값의 약 68%가 평균의 ±1 표준 편차 내에 있고, 값의 95%가 평균의 ±2 표준 편차 내에 있으며, 값의 99.75%가 평균의 ±3 표준 편차 내에 있다는 것을 아는 것이 도움이 됩니다. 심혈관 검사 점수의 분포가 정상이라고 가정할 때, 우리는 이제 아래와 같이 학생의 실제 점수를 추정할 수 있습니다.
Before interpreting the value of the SEM it is helpful to know that in a normal distribution roughly 68% of the values lie within ±1 standard deviation of the mean, 95% of the values lie within ±2 standard deviation of the mean and 99.75% of the values lie within ±3 standard deviation of the mean. Assuming the distribution of cardiovascular test scores is normal we can now estimate the true score for the student as shown below.

우리는 이 학생의

  • 실제 점수가 50±1SEM(또는 45와 55) 내에 있다고 68% 확신할 수 있고,
  • 실제 점수가 50±2SEM(또는 40과 60) 내에 있다고 95% 신뢰할 수 있으며,
  • 실제 점수가 50±3SEM(또는 35와 65) 내에 있다고 99% 확신할 수 있다.

We can be 68% confident that his true score lies within 50±1SEM (or between 45 and 55), 95% confident that the true score lies within 50±2SEM (or 40 and 60) and 99% confident that the true score lies within 50±3SEM (or 35 and 65).

SEM은 또한 학생들의 시험 성적에 대한 의사 결정에도 도움을 준다. 위의 테스트에서 표준 설정자가 불합격에 대해 컷 점수를 50으로 설정하고 평가자가 자신의 결정에 68% 확신을 가지기를 원한다면 SEM은 학생의 실제 점수를 45에서 55 사이로 표시합니다. 이는 학생이 시험을 다시 치르게 되면 점수가 컷 점수(45~55점)보다 작거나 그 이상일 수 있다는 것을 의미한다. 이것은 그 학생이 시험을 통과해야 하는지 여부를 결정할 때 다른 학생들의 활동을 고려할 필요가 있음을 나타낸다.
The SEM also aids in decision making about a students’ performance on the test. If standard setters, in the above test, set a cut score for failing of 50 and if assessors want to be 68% confident of their decision, the SEM indicates that the student's true score, lies between 45 and 55. This means that if the student was to take the test again, his/her score might be less or more than the cut score (between 45 and 55). This indicates that other student activities need to be taken into account when deciding whether or not the student should pass the test.

정성항목분석
Qualitative item analysis

마지막으로 객관적인 시험 항목의 품질을 보장하는 비통계적이고 질적인 방법이 있다는 것을 알아야 한다. 시험 제작자들은 학생들이 시험에 대한 그들의 경험을 이해하는 방법에 대해 오랜 관심을 가지고 있다. 질적 방법들은 학생들이 시험 후에 그들의 경험에 붙이는 의미와 그들이 그 시험에 대해 어떻게 이해하는지 탐구하기 위해 사용될 수 있다. 연구자들은 특정 시험을 치른 학생들의 자연스러운 환경에 몰입할 수 있다. 테스트 생성자와 학생 간의 상호 작용을 탐구하는 것은 조사 중인 항목에 대한 깊은 이해의 기회를 제공합니다.
Finally it is worthwhile being aware that there are non-statistical, qualitative methods, of ensuring the quality of objective test items. Test constructors have had a long-standing interest in the way students make sense of their experiences on tests (Mosier 1947; Fiske 1967). Qualitative methods can be employed to explore the meanings students attach to their experience following a test and how they make sense of that test. Researchers can immerse themselves in the natural setting of students who have taken a particular test. Exploring the interaction between the test constructor and the student provides the opportunity for a deep understanding of the items under investigation.

정성적 방법은 심리측정학적 통계적 추론보다는 학생들의 목소리에 기반을 둔 데이터를 생성하고 분석하는 기술을 활용한다. 다시 말해, 분석 단위는 학생들의 수치 점수보다는 단어이다.
Qualitative methods utilise techniques for generating and analysing data which is grounded in the voice of students rather than psychometric-statistical inferences. In other words, the units of analysis are the words of students rather than their numerical scores.


'학생의 목소리'는 그룹 인터뷰, 대면 인터뷰 또는 관찰과 같은 다양한 언어 출처에서 얻을 수 있다. 면접의 목적은 학생들의 시험 경험에 대한 주관적인 이해를 탐구하는 것이다. 정성 테스트 생성자는 개별 테스트 항목이 어떻게 작동하는지 파악하려고 합니다. 시험 개발자는 일반적으로 질적 분석을 통해 탐색의 잠재적 영역을 파악하기 위해 개방형 및 폐쇄형 질문을 포함하는 인터뷰 일정을 구성한다. 인터뷰 일정에 포함될 수 있는 잠재적 영역은 다음과 같습니다. 문화적 인식, 시험 타당성, 시험 관리, 시험 환경, 시험 공정성, 시험 언어, 항목 추측, 학생 준비, 시험 중 학생들의 편안함, 시험 기간, 시험 시간 및 학생의 전반적인 인상.
‘The student voice’ can be gleaned from different verbal sources such as group interviews, face to face interviews or observations. The purpose of the interview is to explore students’ subjective understanding of their test-taking experience. Qualitative test constructors seek to uncover how individual test items work. Test developers usually construct an interview schedule containing open and closed questions to uncover potential areas of exploration by means of qualitative analysis. The potential areas that may be contained in the interview schedule are: cultural awareness, test validity, test administration, test environment, test fairness, test language, item guessing, student preparation, student's comfort during the test, test length, test time and overall impression of the student (Cohen & Swerdlik 2010).

'Think aloud' 시험관리는 시험 운영 중 각 항목이나 기술에 대한 학생들의 반응을 파악하기 위한 관찰 질적 연구 도구이다. 이 접근법에서, 학생들은 시험에 참여하도록 요청 받고, 그들이 각 항목이나 기술에 반응할 때 그들이 느끼고 생각하는 것을 표현하도록 한다. 시험관들은 시험 중에 학생들의 발언을 객관적으로 기록하거나 중단 없이 녹음한다. 자료의 전사 및 분석은 질적 연구 방법을 사용하여 수행된다. 학생들의 이러한 언어화는 학생들이 어떤 항목을 어떻게 해석하는지, 그리고 그들이 어떤 항목을 잘못 해석하는 이유와 방법을 더 잘 이해하는 데 도움이 될 수 있다(Cohen & Swerdlik 2010).
‘Think aloud’ test administration is an observation qualitative research instrument to uncover student's responses to each item or skill during the administration of a test. In this approach, students are asked to take part in a test and then express whatever they are feeling and thinking when they are responding to each item or skill. Examiners make objective notes of students’ utterances or audio-record them, without interruption, during the test. Transcriptions and analysis of the materials is carried out using qualitative research methods. Such verbalisations by students may help examiners to better understand how students interpret an item, as well as why and how they are misinterpreting an item (Cohen & Swerdlik 2010).

그러나 학생들의 점수가 면접 중 질문에 대한 그들의 반응에 영향을 미칠 수 있다는 점에 유의해야 한다. 좋은 점수를 받은 사람들은 긍정적으로 반응할 수 있고, 나쁜 점수를 받은 사람들은 시험 개발자들을 비난할 수 있다. 질적 데이터의 해석은 모든 학생들의 경험을 고려해야 한다. 이러한 해석에 기초하여 심사관이나 시험 개발자는 항목을 수정, 재작성 또는 폐기할 수 있다.
It should be noted, however, that students’ scores may influence their responses to the questions during interview. Those who have received good scores may respond positively and those who have received poor scores may criticise test developers. The interpretation of qualitative data should take all student experiences into consideration. Based on these interpretations, examiners or test developers can revise, reword or discard an item.

요약
Summary

본 가이드에서는 의학교육에서 측정 및 평가의 중심적 중요성과 시험문제의 추론기반을 설명하였다. 의학 교육자들은 학습에 대한 학생들의 참여를 촉진하는 데 세 가지 주요 역할을 한다.

  • 첫째, 그들은 의대생들이 무엇을 해야 하는지 또는 무엇을 알아야 하는지에 초점을 맞춘 학습 목표에 대한 결정을 내려야 한다.
  • 둘째, 의료교육자는 교육관리 및 리더십 기법과 교육학적 방법을 이용하여 의료환경이나 교실에서 대상주제를 구현하고 가르칠 필요가 있다.
  • 마지막으로, 의학 교육자들은 특정 성취도 테스트를 통해 얼마나 많은 양의 자료를 습득했는지 측정하고 평가할 필요가 있다. 

This Guide has explained the central importance of measurement and evaluation and inferential foundations of examination questions in medical education. Medical educators have three key roles in facilitating student engagement in learning.

  • First, they need to make a decision about learning objectives which focuses on what medical students need to do or know.
  • Second, medical educators need to implement and teach the target subject matter in health care settings or the classroom using educational management and leadership techniques and pedagogical methods.
  • Finally, medical educators need to measure and evaluate how much of the material has been mastered by a particular achievement test.

시험은 보통 특정 과목의 학생 성취도 기준으로 간주된다. 따라서 의료 교육자는 검사 문제가 의도한 목적에 적합한 증거를 도출하도록 유효하고 신뢰할 수 있는 시험을 구성해야 한다. 이를 위해 항목-난이도 지수 및 항목-차별 지수를 산출할 필요가 있다. 문제는 대다수(60% 이상) 학생이 맞히면 쉬운 것으로, 30% 미만 학생이 맞히면 어려운 것으로 간주된다. 항목 판별 지수는 점-이진 상관 계수 및 t-테스트 절차를 사용하여 분석한다. 큰 양의 Rpbi는 좋은 질문의 표시이고 낮은 양의 Rpbi 또는 음의 Rpbi는 나쁜 질문의 표시입니다. t-검정은 항목 식별 지수를 결정하기 위한 또 다른 통계적 절차이다. 문제를 맞힌 학생의 평균점수와 오답한 학생의 평균점수 사이에 큰 차이가 없다면 문제는 강한 학생과 약한 학생을 구별하는 것이 아니다. 이는 다음 시험을 위해 문제를 제거하거나 수정해야 함을 시사한다. SPSS는 항목 분석 데이터의 분석을 용이하게 한다.

This test is usually considered as a criterion for student achievement in a particular subject. Consequently, medical educators need to construct valid and reliable tests in order to ensure that examination questions elicit evidence that is appropriate to the intended purpose. To this end, the item-difficulty index and the item- discrimination need to be calculated. A question is considered easy if it is answered correctly by the majority of students (more than 60%), and is considered hard if it is answered correctly by less than 30% of the students. The item-discrimination index is analysed using the point-biserial correlation coefficient and the t-test procedure. A large positive Rpbi is an indication of a good question while a low positive or a negative Rpbi is an indication of a bad question. The t-test is another statistical procedure for determining the item-discrimination index. If there is no significant difference between the mean score of students who answered the question correctly and the mean score of students who answered the question incorrectly, the question is not differentiating strong students from weak students. This suggests that the question should be removed or revised for next examination. SPSS facilitates the analysis of the item analysis data.

 


 

Med Teach. 2011;33(6):447-58. doi: 10.3109/0142159X.2011.564682.

Post-examination analysis of objective tests

Affiliations collapse

Affiliation

1University of Nottingham, UK.

PMID: 21609174

DOI: 10.3109/0142159X.2011.564682

Abstract

One of the key goals of assessment in medical education is the minimisation of all errors influencing a test in order to produce an observed score which approaches a learner's 'true' score, as reliably and validly as possible. In order to achieve this, assessors need to be aware of the potential biases that can influence all components of the assessment cycle from question creation to the interpretation of exam scores. This Guide describes and explains the processes whereby objective examination results can be analysed to improve the validity and reliability of assessments in medical education. We cover the interpretation of measures of central tendency, measures of variability and standard scores. We describe how to calculate the item-difficulty index and item-discrimination index in examination tests using different statistical procedures. This is followed by an overview of reliability estimates. The post-examination analytical methods described in this guide enable medical educators to construct reliable and valid achievement tests. They also enable medical educators to develop question banks using the collection of appropriate questions from existing examination tests in order to use computerised adaptive testing.

수행능력 기반 평가에서 합격선 설정 방법: AMEE Guide No. 85 (Med Teach, 2014)
How to set standards on performance-based examinations: AMEE Guide No. 85
DANETTE W. MCKINLEY & JOHN J. NORCINI 

 

서론
Introduction

[합격선 설정Standard setting]은 [일반적인 수행 수준을 충족시키기 위해 필요한 지식과 기술의 수준]을 정의하거나 판단한 다음, [해당 수행능력 기준performancd standard에 해당하는 시험 점수 척도]에서 점수를 식별하는 과정이다. 표준 설정 절차는 직업 또는 교육 영역에 대한 역량의 개념 정의를 제공하고 개념을 운영하기 위해 사용된다. 역량의 개념적 정의를 고려할 때 역량에 기반한 의료교육에서 개발된 기준을 생각해보는 것이 도움이 된다. [이정표 또는 벤치마크] 개발에서 제공되는 기술 정보는 performance standard을 정의하는 데 도움이 될 수 있다. 
Standard setting is the process of defining or judging the level of knowledge and skill required to meet a typical level of performance and then identifying a score on the examination score scale that corresponds to that performance standard. Standard setting procedures are employed to provide a conceptual definition of competence for an occupation or educational domain and to operationalise the concept. When considering the conceptual definition of competence, it is helpful to think about the criteria developed in competency-based medical education. The descriptive information provided in the development of milestones or benchmarks (Holmboe et al. 2010) can be helpful in defining the performance standard.

[표준 설정 프로세스]는 [역량]에 대한 [개념적 정의]를 [통과 점수]라고 불리는 [조작적 버전]으로 변환하도록 설계되었다. [합격점수가 적절하다]는 검증은 [시험점수 해석의 타당성]을 뒷받침하는 증거를 수집하는 데 있어 또 다른 중요한 요소이다. 시험에 대한 합격 점수를 결정하기 위한 다양한 접근법이 개발되고 연구되었다.

The standard setting process is designed to translate a conceptual definition of competence to an operational version, called the passing score (Kane 1994; Norcini 1994). Verification that the passing score is appropriate is another critical element in collecting evidence to support the validity of test score interpretation (American Educational Research Association et al. 1999; Kane 2006). Various approaches to determining passing scores for examinations have been developed and researched.

본 가이드에서는 일반적으로 수행능력 기반 평가와 함께 사용된 방법에 대한 개요를 제공합니다. 다양한 평가 목적을 고려하는 것은 표준 설정 방법에 대한 논의를 위한 맥락을 제공하고, 이어서 보건 전문 교육에서 일반적으로 설정되는 다양한 유형의 표준에 대한 설명을 제공할 것이다. 표준 설정 프로세스에 대한 단계별 가이드가 제공됩니다.

In this Guide, an overview to the methods that have been typically used with performance-based assessments will be provided. A consideration of various assessment purposes will provide context for discussion of standard setting methods, followed by a description of different types of standards that are typically set in health professions education. A step-by-step guide to the standard setting process will be presented.

 

평가목적
Assessment purposes

교육에서, 훈련생들이 노력 분야에서 수행하는데 필요한 지식, 기술 및 태도를 얻고 있는지 여부를 평가하는 것이 종종 필요하다. "충분한 지식, 기술 및 태도"가 존재하는지 여부를 결정하기 위해, 평가 프로그램의 일부로 다양한 방법이 일반적으로 사용된다(Dijkstra et al. 2010). 보건 전문 교육에서는 지원자, 학생, 졸업생 및 실무자의 지식, 기술, 태도 및 능력을 평가하는 많은 접근법이 있다. 한동안 보건 전문 교육자들은 [적절하지 않더라도] 의사의 역량을 평가하기 위해 [사용 가능한 평가 방법]을 사용했다(Norcini & McKinley 2007). 예를 들어, 의사가 의료 팀과 효과적으로 의사소통할 수 있는 것이 중요하지만, 이러한 측면에 대한 평가는 [필기 시험]을 통해 적절하게 테스트되지 않는다. 여러 평가 방법이 개발 및 구현되었으며, [실제 상황에서 기대되는 수행performance와 연계된 성과에 기반한 평가]로 이동했습니다. 보건 전문가 교육에서 "실제" 환자의 불만을 묘사하도록 훈련된 일반인(SP)이 자주 사용된다. 이러한 유형의 평가는 수험자가 알고 있는 것이 아닌 자신이 할 수 있는 일(예: 신체검사를 올바르게 수행, 환자와 의사 소통)을 보여줄 수 있는 기회를 제공한다(Miller 1990).
In education, it is often necessary to evaluate whether trainees are attaining the knowledge, skills, and attitudes needed to perform in the field of endeavour. In order to determine whether “sufficient knowledge, skills and attitudes” are present, different methods are typically employed as part of a programme of assessment (Dijkstra et al. 2010). In health professions education, there are many approaches to assessing the knowledge, skills, attitudes and abilities of applicants, students, graduates, and practitioners. For some time, health professions educators used any available assessment method to evaluate the competencies of a doctor, even if they were not appropriate (Norcini & McKinley 2007). For example, although it is important for a doctor to be able to communicate effectively with the healthcare team, assessment of this aspect is not appropriately tested through the use of written examinations. Several methods of assessment have been developed and implemented, with a movement towards assessment based on performance that is tied to what is expected in practice. In the education of health professionals, standardised patients (SPs), lay people trained to portray complaints of “real” patients, are frequently used (e.g. Patil et al. 2003). This type of assessment provides examinees the opportunity to show what they can do (e.g. correctly perform a physical examination, communicate with a patient), rather than what they know (Miller 1990).

[수험생들이 무엇을 하는지 평가하는 방법]을 개발하는 데 있어서, 다른 방법, 또는 심지어 양식들의 조합도 사용되었다. 많은 의료 분야에서 차트 검토와 360도 평가를 포함한 다양한 직장 기반 평가의 사용이 도입되었다 (Norcini & Burch 2007). 이러한 평가는 일반적으로 품질 개선 척도로 사용되며 동료 검토, 실무 결과 평가, 환자 또는 고객 만족도 척도를 포함한다(Norcini 2003).
In developing methods that assess what examinees do, other methods, or even combinations of modalities, have also been used (Nestel et al. 2006). In many healthcare professions, the use of various workplace-based assessments, including chart reviews and 360 degree evaluations, have been instituted (Norcini & Burch 2007). These assessments are usually employed as quality improvement measures, and involve peer review, evaluation of practice outcomes, and patient or client satisfaction measures (Norcini 2003).

이용 가능한 다양한 도구들은 적어도 부분적으로 다른 평가 목표를 충족하도록 개발되었다. 평가 목표에는 다음을 결정하는 것이 포함될 수 있다.

  • 의대에 입학할 자격이 있는 사람(예: 입학 시험) 
  • 코스 요건이 충족되는지 여부(예: 강의실 시험) 
  • 학생이 다음 단계의 교육으로 진급할 준비가 되어 있는지 여부(예: 연말 시험)
  • 수험자가 전문직에 진출할 준비가 되어 있는지 여부(예: 면허 및 인증 시험) 
  • 응시자가 전문성의 증거를 보였는지 여부(예: 인증 유지)

The varieties of instruments that are available have been developed, at least in part, to meet different assessment goals. Assessment goals may include determining

  • who is eligible to enter medical school (e.g. admissions testing);
  • whether course requirements are satisfied (e.g. classroom testing);
  • if a student is ready to advance to the next level of training (e.g. end-of-year testing);
  • whether the examinee is ready to enter a profession (e.g. licensure and certification testing); or
  • whether the examinee has shown evidence of expertise (e.g. maintenance of certification).

일반적으로 [평가에서 얻은 점수]는 "적절한 지식, 기술 및 판단력을 사용하여 [실천 영역]을 정의하는 [encounters의 영역]에 걸쳐 [효과적인 전문 서비스]를 제공할 수 있는" 학생의 능력을 나타낸다고 가정한다. 점수는 종종 학생(또는 졸업생)이 직업에 들어가거나 계속 연습할 수 있는 지식과 기술을 충분히 습득했는지에 대한 결정(또는 해석)에 사용된다. 이러한 방식으로, 시험 점수는 사람들을 두 개 이상의 그룹으로 분류하는 데 사용된다(예: 시험 합격 또는 불합격). 시험 점수는 누가 추가적인 교육적 도움을 필요로 하는지, 시험 응시자가 다음 단계의 훈련을 계속할 것인지, 또는 시험 응시자가 관심 영역에서 숙달했는지에 대한 결정을 내리는 데 사용될 수 있다. 

The assumption is usually made that scores obtained from assessments provide an indication of a student's ability to “use the appropriate knowledge, skills, and judgment to provide effective professional services over the domain of encounters defining the area of practice” (Kane 1992, p. 167). Scores are often used to make decisions (or interpretations) regarding whether students (or graduates) have sufficiently acquired the knowledge and skills to enter, or continue practice in, a profession. In this manner, test scores are used to classify people into two or more groups (e.g. passing or failing an examination). Test scores can be used to make decisions about who needs additional educational help, whether the test-taker will go on to the next level of training, or whether the test-taker has achieved mastery in the domain of interest.

Kane(1992)은 [역량]을 [개인이 그 실천 영역에서 발생하는 다양한 상황을 처리할 수 있는 정도]로 정의했습니다(165쪽). 교육, 면허, 자격증 취득에서 평가는 지원자의 숙련도를 결정하는 데 사용된다. 예를 들어, 객관 구조화 임상 검사(OSCE)와 같은 수행능력 척도performance measures가 개발되면, 적절한 수행능력을 나타내는 특성의 정의를 포함하여, [도메인 기반 평가]와 관련된 원칙을 사용할 수 있다(Pell et al. 2010). 시험이 객관식 항목으로 구성되든, 과제 수행으로 구성되든, 목표가 한 개인과 같은 평가를 받는 다른 사람을 비교하는 것인지, 아니면 숙련도를 결정하는 것인지를 고려하는 것이 중요하다. 가이드의 다음 섹션에서는 이러한 다양한 목적과 관련된 표준 유형에 대해 설명합니다.

Kane (1992) defined competence as the extent to which the individual can handle the various situations that arise in that area of practice (p. 165). In education, licensure, and certification, assessments are used to determine the proficiency of candidates. For example, when performance measures such as the objective structured clinical examination (OSCE) are developed, principles associated with domain-based assessment, including definition of characteristics denoting adequate performance, can be employed (Pell et al. 2010). Whether the test consists of multiple-choice items or task performance, it is important to consider whether the goal is to compare an individual with others taking the same assessment, or to determine the level of proficiency. In the next section of the Guide, we discuss types of standards related to these different purposes.

합격선Standard의 종류
Types of standards

표준은 상대적(때로는 표준 참조라고 함) 또는 절대적(때로는 기준 참조라고 함)으로 분류할 수 있다(Livingston & Zieky 1982). 서로 평가를 받는 사람들의 비교를 바탕으로 제정되는 기준은 상대적인 기준이다. 예를 들어 합격점수가 합격자 수나 비율을 기준으로 정해지면 상대적인 기준이 된다. 이러한 유형의 표준 설정은 일반적으로 사용 가능한 자리가 제한된 취업 또는 교육 프로그램 입학을 위한 선택에서 사용된다. 고부담 시험(예: 졸업, 자격증, 자격증)의 경우, 시험 응시자 집단의 능력이 시간에 따라 달라질 수 있고, 평가 내용도 시점에 따라 달라질 수 있기 때문에, 상대적인 표준은 일반적으로 사용되지 않는다. 미리 결정된 합격 점수를 교육용(교실) 시험과 함께 사용할 경우, 해당 수업의 학생들의 능력과 주어진 시험의 난이도는 고려되지 않는다(Cohen-Schotanus & van der Vleuten 2010). 수험능력과 시험 난이도는 합격점수의 적절성에 대한 증거에 악영향을 미칠 수 있는 요인이다. 상대적 표준 설정 방법과 관련된 불이익을 피하기 위해, 절대적 표준 설정 접근법이 자격 증명 검사(즉, 면허증 또는 인증)에서 더 일반적으로 사용된다. 
Standards can be categorised as relative (sometimes called norm-referenced) or absolute (sometimes called criterion-referenced) (Livingston & Zieky 1982). Standards that are established based on a comparison of those who take the assessment to each other are relative standards. For example, when the passing score is set based on the number or percentage of examinees that will pass, the standard is relative. This type of standard setting is typically used in selection for employment or admission to educational programmes where the positions available are limited. With high stakes examinations (e.g. graduation, certification, licensure), relative standards are not typically used, because the ability of the groups of test takers could vary over time and the content of the assessment may also vary over time. When pre-determined passing scores are used with educational (classroom) tests, the ability of the students in the class and the difficulty of the test given are not considered (Cohen-Schotanus & van der Vleuten 2010). Examinee ability and test difficulty are factors that could adversely affect evidence of the appropriateness of the passing score. To avoid the disadvantages associated with the relative standard setting method, absolute standard setting approaches are more commonly used in credentialing examinations (i.e. licensure or certification).

합격하기 위해 정확하게 답해야 하는(또는 수행해야 하는) 시험 재료의 양을 결정하여 설정한 기준이 절대 기준이다. 예를 들어 객관식 시험의 75%를 맞혀야 합격할 수 있다면 그 기준은 절대적이다. 절대적인 기준을 사용할 경우, 모든 수험생이 시험에 합격하거나 불합격하는 결과를 초래할 수 있다.
Standards set by determining the amount of test material that must be answered (or performed) correctly in order to pass are absolute standards. For example, if the examinee must answer 75% of the items on a multiple-choice test correctly in order to pass, the standard is absolute. When absolute standards are used, it is possible that decisions made will result in all examinees passing or failing the examination.

표준 설정 및 성능 기반 평가
Standard setting and performance-based assessments

수행능력 기반 평가에는 몇 가지 표준 설정 방법이 사용되었다. 상대적인 기준은 원하는 결과에 기초하여 설정되며(예: 상위 75명의 지원자를 학교에 입학시키는 것) 따라서 더 쉽게 결정되기 때문에, 본 가이드는 절대적인 표준 설정 방법에 초점을 맞출 것이다(비교는 표 1 참조). 이러한 방법에는 시험 자료나 시험 수행에 대한 검토가 포함되며, 결과적인 합격 점수는 주제 전문가 그룹의 판단에서 도출될 수 있다. 절대 표준 설정Absolute standard setting 접근법은 [시험 중심] 또는 [시험자 중심]이라고 한다.(Livingston & Zieky 1982).

  • 시험 중심적인 방법을 사용할 때, 심사위원들은 시험 내용에 초점을 맞춘다. 앙고프(1971), 에벨(1972), 네델스키(1954) 방법은 시험 중심 표준 설정 방법의 예이다.
  • 이와는 대조적으로 수험생 중심의 방법을 사용할 때, 심사위원은 수험생들의 성적에 초점을 맞춘다. 이러한 방법에는 대조군, 경계선 그룹 및 경계선 회귀 방법이 포함된다(Livingston & Zieky 1982; Wood et al. 2006). 수험생 중심 방법에서 judge의 임무는 심사 결과가 표준을 충족하는 데 필요한 지식과 기술을 가진 사람을 묘사하는지 여부를 결정하는 것이다(예: 최소 역량).

Several standard setting methods have been used with performance-based assessments. Because relative standards are set based on the desired result (e.g. admitting the top 75 candidates to a school) and are, therefore, determined more easily, this Guide will focus on absolute standard setting methods (See Table 1 for comparisons). These methods involve review of examination materials or examinee performance, and the resulting passing scores can be derived from the judgments of a group of subject matter experts. Absolute standard setting approaches have been referred to as either test-centred or examinee-centred (Livingston & Zieky 1982).

  • When using test-centred methods, the judges focus on exam content. The Angoff (1971), Ebel (1972), and Nedelsky (1954) methods are examples of test-centred standard setting methods.
  • In contrast, when using examinee-centred methods, judges focus on the performance of examinees. These methods include contrasting groups, borderline group, and borderline regression methods (Livingston & Zieky 1982; Wood et al. 2006). The judges’ task in examinee-centred methods is to determine whether the performance they review depicts someone possessing the knowledge and skills needed to meet the standard (e.g. are minimally competent).

객관식 문제(MCQ)를 포함하는 시험과 관련된 시험 중심 및 수험자 중심 접근법의 측면은 이전 AMEE 가이드(Bandaranayake 2008)에서 제시되었으며, 이러한 접근법 중 일부를 OSCE에 적용하는 방법이 여기에 제시된다. 구체적으로, 우리는 앙고프, 경계선 그룹, 경계선 회귀, 대조 그룹 및 시뮬레이션된 OSCE 데이터를 사용한 표준 설정의 절충 방법에 대한 지침을 제공할 것이다. 가이드의 나머지 부분은 표준설정연구 준비, 표준설정연구 실시, 합격점수 생성, 표준실행 및 유지의 4가지 섹션으로 구분된다. 

Aspects of test-centred and examinee-centred approaches, related to examinations containing multiple choice questions (MCQs), were presented in a previous AMEE guide (Bandaranayake 2008), and the application of some of these approaches to the OSCE are presented here. Specifically, we will provide guidance for the use of the Angoff, borderline group, borderline regression, contrasting group, and compromise methods of standard setting using simulated OSCE data. The remainder of the Guide is divided into four sections:

  • preparing for the standard setting study,
  • conducting the standard setting study,
  • generating the passing score, and
  • implementing and maintaining standards.

표준 설정 스터디 준비
Preparing for the standard setting study

합격 점수를 결정하는 것은 일반적으로 평가 목적과 평가된 영역에 익숙한 그룹에 의해 수행된다. 이 그룹이 만나기 전에 완료해야 할 여러 단계가 있습니다. 첫째, 패널리스트를 모집할 필요가 있다. 객관성을 높이고 그럴듯한 합격 점수를 얻기 위해

  • 패널은 시험 내용 영역과 시험의 목적에 대해 잘 알고 있어야 한다(Jaeger 1991; Raymond & Reid 2001).
  • 또한, 그들은 시험 받는 학생들의 자격에 익숙해야 한다.
  • 마지막으로, 평가 방법에 대한 경험이 필수적이다.
  • 임상 숙련도에 대한 판단을 내리는 패널리스트는 해당 분야의 전문가여야 하며, 시험 통과에 따른 결과를 쉽게 이해할 수 있기 때문에 다양한 교육 단계에서 교육생들의 기대에 익숙해야 한다.

Determining the passing score is typically accomplished by a group familiar with the assessment purpose and the domain assessed. Before this group meets, there are a number of steps that should be completed. First, panellists need to be recruited. To increase objectivity and to derive plausible passing scores,

  • panellists should be knowledgeable about the examination content area and the purpose of the test (Jaeger 1991; Raymond & Reid 2001).
  • In addition, they should be familiar with the qualifications of the students being tested.
  • Finally, experience with the assessment method is essential.
  • Panellists who make judgments about clinical proficiency should be experts in the profession and should have familiarity with expectations of trainees at various stages of education, because they will readily understand the consequences associated with passing the test.

OSCE는 종종 임상 및 커뮤니케이션 기술을 시험하기 위해 사용되므로 OSCE에 평가자로 참여한 교직원이나 행정에 사용되는 자료(예: 점검표) 개발에 도움을 준 교직원은 표준 설정 회의에서 패널로 모집하는 데 이상적일 수 있다.

  • 예를 들어 의사의 의사소통 기술에 대한 표준을 설정하기 위해 의료팀의 다른 구성원(예: 간호 직원, 표준화된 환자 트레이너)을 심사위원으로 고려할 수 있다. 그들은 임상 환경에서 의사의 예상 성과를 잘 알고 있기 때문에 표준 설정 프로세스의 적절한 참여자가 될 수도 있다.
  • 성별, 전공(예: 소아과, 일반 의학) 및 전문 활동(예: 교수진 대 개업 의사)에 기초한 패널리스트의 [적절한 혼합]이 고려되어야 한다.
  • 이는 합격 점수가 직업에 들어갈 지원자를 식별할 때 특히 중요하다(예: 면허증). 

Because OSCEs are often used to test clinical and communication skills, faculty members who have participated in the OSCE as examiners or those who have assisted in the development of materials used in the administration (e.g. checklists) would be ideal for recruiting as panellists in the standard setting meeting.

  • To set standards for communication skills of physicians, for example, other members of the health care team could be considered (e.g. nursing staff, standardised patient trainers) as judges. Because they are familiar with the expected performance of physicians in clinical settings, they would also be appropriate participants in the standard setting process.
  • A suitable mix of panellists based on gender, discipline (e.g. paediatrics, general medicine), and professional activity (e.g. faculty vs. practicing physician) should be considered.
  • This is particularly important when the passing score identifies those candidates who will enter a profession (e.g. licensure).

패널리스트가 많을수록, 결과적인 합격 점수는 안정적일 가능성이 높다(Jaeger 1991; Ben-David 2000). 다만 대규모 그룹 경영에 대한 배려도 중요하다. 필요한 패널리스트의 수는 심사 결정과 관련된 결과, 표준 설정 회의를 완료하기 위한 합리적인 시간대를 검토하기 위한 수행 횟수 및 회의에 사용할 수 있는 자원과 같은 여러 요인에 의해 균형을 이루어야 합니다. 표준 설정 미팅은 적게는 4명, 많게는 20명의 패널리스트로 수행될 수 있습니다. 그룹이 크면 미팅 조정자는 더 많은 자료를 다룰 수 있도록 더 작은 그룹에 패널 목록을 할당할 수 있습니다. [결정 요인]은 미팅에 사용할 수 있는 자원(예: 공간, 진행자 수)입니다.

The more panellists there are, the more likely it is that the resulting passing score will be stable (Jaeger 1991; Ben-David 2000). However, consideration of management of a large group is also important. The number of panellists needed should be balanced by a number of factors: the consequences associated with examination decisions, the number of performances to review a reasonable time frame for completion of the standard setting meeting, and the resources available for the meeting. Successful standard setting meetings can be conducted with as few as four panellists or as many as 20. Having a large group will provide the meeting facilitator with the opportunity to assign panellists to smaller groups so that more material can be covered. The deciding factor will be resources (e.g. space, number of facilitators) available for the meeting.

회의를 조직하는 다음 단계는 패널리스트를 교육하는 데 사용할 자료를 준비하는 것입니다. 패널리스트 교육은 매우 중요하다. 수행능력 표준performance standard 에 대한 명확한 이해(예: 교정조치가 필요한 학생, 지도 실습 준비 졸업생, 비지도 실습 준비 전문가)를 개발하는 것이 필수적이다. performance standard 에 대한 이해를 증진시키기 위해, 전형적으로 [역량 기반 커리큘럼]의 일부인 기준은 매우 유용할 수 있다. 이러한 유형의 정보는 특정 맥락에서 그리고 보건 전문가 경력의 특정 단계에서 성과 표준을 구성하는 지식, 기술 및 능력을 설명하는 데 도움이 될 수 있다(Frank et al. 2010).
The next step in organising the meeting is preparing materials to be used in training the panellists. Panellist training is very important; developing a clear understanding of the performance standard (e.g. student in need of remediation, graduate ready for supervised practice, practitioner ready for unsupervised practice) is essential (Ben-David 2000; Bandaranayake 2008). To promote understanding of the performance standard, criteria that are typically part of a competency-based curriculum can be very useful. This type of information can assist in the delineation of the knowledge, skills, and abilities that comprise the performance standard in a particular context, and at a particular stage in a health professional's career (Frank et al. 2010).

교육을 지원하기 위해 시험 자료를 오리엔테이션의 일부로 사용할 수 있습니다. 예를 들어, OSCE의 표준 설정에 대한 오리엔테이션의 일부로서 패널리스트는 일부 스테이션을 수험생처럼 완수해볼 수 있다. 이를 통해 수험생의 입장에서 시험을 경험할 수 있다. 다음으로, performance standard를 정의하는 특성에 대한 논의가 이루어질 것이다. 마지막으로, 패널리스트는 선택한 방법을 연습할 수 있는 기회가 주어질 것이다.
To support training, examination materials may be used as part of the orientation. For example, as part of the orientation to standard setting for an OSCE, panellists could complete some of the stations as examinees. This allows them to experience the examination from the perspective of the examinee. Next, a discussion of the characteristics defining with the performance standard would be conducted. Finally, the panellists would be afforded the opportunity to practice the method selected.

가이드의 다음 섹션에서는 OSCE를 예로 들어 성능 평가에 대한 합격 점수를 설정하는 데 사용할 수 있는 방법을 제시한다. 이러한 방법은 일반적으로 OSCE 및 표준화된 환자 검사의 합격 점수를 얻는 데 사용됩니다. 각 섹션에서는 OSCE 또는 표준화된 환자 검사와 함께 사용되는 방법에 대한 연구를 인용한다. OSCE의 합격 점수를 도출하기 위한 세부 지침을 제공하기 위해, 우리는 5개의 OSCE 스테이션을 사용하여 50명의 학생을 위한 연말 시험을 위한 데이터를 생성했다. 50개 항목으로 구성된 객관식 시험을 위한 데이터도 생성되었다. 이 시뮬레이션 데이터 세트는 OSCE 시험을 위한 합격 점수를 개발하는 데 사용할 수 있는 여러 가지 방법을 설명하는 데 사용될 것이다.

In the next section of the Guide, we present methods that can be used to set passing scores for performance assessments, using the OSCE as an example. These methods are commonly used to derive passing scores for OSCE and standardised patient examinations (Norcini et al. 1993; Boulet et al. 2003; Downing et al. 2006). In each section, research regarding the method as used with OSCEs or standardised patient examinations is cited. In order to provide detailed guidelines for deriving passing scores for an OSCE, we generated data for an end-of-year examination for 50 students, using five OSCE stations. Data for a multiple-choice examination consisting of 50 items was also generated. This simulated data set will be used to illustrate a number of methods that can be used to develop passing scores for an OSCE examination.

표준 설정 미팅 진행 : 수정된 Angoff
Conducting the standard setting meeting: modified Angoff

체크리스트 항목
Checklist items

[수정된 앙고프]를 체크리스트의 각 항목에 대한 표준을 설정하기 위해 사용하는 연구가 몇 가지 수행되었다(예: 다우닝 외 2003, 2006). 이 과정을 위해서는 체크리스트와 평점 제공 양식 등 모든 패널리스트에 대한 사례 자료를 준비해야 한다. 미팅 진행자는 등급을 표시하는 방법(플립 차트, 프로젝터)이 필요하며, 데이터 입력을 위한 양식을 준비하고 가능하면 각 사례 체크리스트에 대한 스프레드시트를 설정해야 합니다. 이를 통해 간단한 데이터 분석을 통해 문항, 심사자, 사례의 평균을 계산할 수 있습니다. 이 방식을 사용할 때, 패널리스트는 체크리스트의 항목을 검토하며, 과제는 [OSCE 체크리스트에 대해서, 기술된 조치를 정확하게 수행할 수 있는 performance standard을 충족하는 수험자(예: 최소 능력자)의 비율을 추정하는 것]이다.

Several studies have been conducted where the modified Angoff was used to set standards for each item in a checklist (e.g. Downing et al. 2003, 2006). For this process, it is necessary to prepare case materials for all panellists, including checklists and a form for providing ratings. The meeting facilitator will need a way to display the ratings (flip chart, projector) and should prepare forms for data entry and, if possible, set up spreadsheets for each case checklist. This will permit simple analyses of the data, calculating averages for items, judges, and cases. In these studies, panellists review the items on the checklist, and the task is to estimate the percentage of examinees meeting the performance standard (e.g. minimally competent) who will correctly perform the action described in the OSCE checklist.

2는 고령 환자의 낙상 사례에 대한 샘플 체크리스트를 보여준다. 성능 표준에 대한 논의와 사례 자료의 발표에 이어, 패널리스트는 그룹으로 처음 5개의 체크리스트 항목을 검토할 것을 권고한다. 이 예제에서 항목 3에 대한 평가자 10과 13의 등급 사이에는 큰 차이가 있습니다. 정의와 등급 과제에 대한 합의에 도달하는 것을 목표로, [15% 이상의 불일치]에 대한 논의가 촉진될 것이다. 불일치 항목이 [15% 이상]이면 회의 후 점검항목에 내용 관련 문제가 있는지 검토해야 한다. 이 항목은 합격 점수 결정에서 제거되어야 할 수 있으며, 패널리스트가 토론한 내용은 해당 결정을 내리는 데 유용할 수 있습니다. 15% 이상의 불일치는 토론을 통해 해결할 수 없는 항목이 있을 수 있지만, 이러한 항목이 많으면 안 됩니다. 그룹 등급 및 토론 후 패널리스트는 나머지 체크리스트 항목을 독립적으로 진행할 수 있습니다.
Table 2 shows a sample checklist for a case of a fall in an elderly patient. Following a discussion of the performance standard, and presentation of case materials, it is recommended that the panellists review the first five checklist items as a group. In the example, there is a large difference between the ratings of raters 10 and 13 on item 3. Discussion of discrepancies of 15% or more would be facilitated, with the goal of reaching consensus on the definition and the rating task. If there are items with discrepancies of 15% or more, they should be reviewed after the meeting to determine if there is a content-related problem with the checklist item. This item may need to be removed from determination of the passing score, and any discussion the panellists have can be useful in making that decision. There may be some items where discrepancies of 15% or more cannot be resolved through discussion, but there should not be many of these items. After group rating and discussion, panellists can proceed through the remaining checklist items independently.

이 예제에 사용된 표에는 모든 패널 목록의 평균 등급이 표시됩니다. 사례case의 합격 점수를 도출하기 위해 모든 항목과 패널리스트의 평균 등급을 계산했다. 이 예에서 합격 점수는 67%입니다. 수험생이 체크리스트 항목 중 67% 이상을 정확하게 채우면 합격점을 받을 수 있다. 다음은 수정된 Angoff 방법을 사용하여 [단일 사례에 대한 합격 점수를 결정하는 단계]입니다. 이 프로세스는 OSCE 관리에 포함된 스테이션에 대한 모든 체크리스트에서 반복된다. 패널리스트가 등급 지정 프로세스를 완료하면 데이터 입력을 시작할 수 있습니다. 각 경우에 대한 스프레드시트를 사용하여 데이터 입력을 용이하게 할 수 있습니다. items과 judges의 평균을 계산하면 각 사례에 대한 컷 점수가 생성됩니다. 평가 결과의 점수 및 보고에 따라, 합격 점수는 [사례별 합격 점수case passing scores를 평균]하거나 또는 [OSCE 콘텐츠 영역(예: 이력 검사, 신체 검사, 커뮤니케이션)을 평균]하여 OSCE에 대해 계산할 수 있다.

The table used for this example shows the average rating across all panellists. To derive the passing score for the case, the average rating across all items and panellists was calculated. In this example, the passing score would be 67%. If examinees correctly complete 67% or more of the items on the checklist, they would achieve a passing score for that case. These are the steps associated with using the modified Angoff method to determine the passing score for a single case. This process would be repeated with all checklists for stations included in the OSCE administration. Once panellists have completed their rating process, data entry can begin. Data entry can be facilitated by using a spreadsheet for each case. Calculating the mean across items and judges produces a cut score for each case. Depending on the scoring and reporting of assessment results, passing scores can be calculated for the OSCE by

  • averaging case passing scores, or
  • OSCE content domains (e.g. history taking, physical examination, communication).

경우들
Cases

수정된 Angoff는 체크리스트 항목 수준에서 판단을 수집하여 사용되었지만, 패널리스트가 사례 또는 스테이션 수준에서 판단을 내리는 것이 더 일반적이다. 이 접근법의 한 가지 근거는 [체크리스트의 항목이 상호 연관되어 있다]는 것이다. [특정 질문을 하거나, manoeuvre 수행할 가능성]은 신체검사에서 [다른 질문이나 다른 발견]에 달려 있다. 앙고프가 사례 수준에서 실시될 경우 패널들의 과제는 OSCE 스테이션의 [점검표 내 개별 항목]이 아니라, [사례의 내용]에 따라 수행 기준을 충족할 수험생 비율을 추정하는 것이다. 또는 패널리스트에게 점검표 항목을 검토하고 [성능 표준을 충족하는 수험생(예: 최소 자격)이 충족할 것 같은 item의 비율]을 추정하도록 요청할 수 있다.
Although the modified Angoff has been used by gathering judgments at the checklist item level, it is more common to have panellists make their judgments at the case or station level. One rationale for this approach is that the items in a checklist are inter-related; the likelihood of asking a question or performing a manoeuvre is dependent on asking other questions or other findings in a physical examination (Ben-David 2000; Boulet et al. 2003). If the Angoff is conducted at the case level, the panellists’ task is making an estimation of the percentage of examinees who will meet the performance standard based on the content of the case, rather than the individual items within the checklist for the OSCE station (e.g. Kaufman et al. 2000). Alternately, the panellists can be asked to review the checklist items and estimate the percentage of items for which the examinees meeting the performance standard (e.g. minimally qualified) will get credit.


사례 자료는 패널리스트에 의해 검토되며, 데이터 입력 준비도 유사합니다. 그러나 표준 설정 프로세스의 일부로 분석할 사례 수에 따라 단일 스프레드시트를 사용할 수 있습니다. 표 3은 앞에서 언급한 시뮬레이션을 위한 샘플 스프레드시트 형식을 제공하며, 50명의 학생을 대상으로 한 연말 시험을 위한 5개의 OSCE 스테이션이 있다. 이 예제의 경우 5명의 심판이 있습니다. 다시 한 번 수행기준에 부합하는 수험생의 특성을 논의하고, 시험자료를 제시하고 검토하며 패널들이 채점 과제를 시작한다. 그 방법을 연습하는 것은 필수적이다. 우리의 예를 사용하면, 여섯 번째 사례가 패널들 간의 연습과 토론에 사용될 것이다. 이 경우 등급은 합격 점수를 생성하는 데 사용되지 않습니다. 모든 학생의 사례 점수(백분율 점수percent correct metric)는 표의 마지막 열에 표시됩니다. 만약 시간이 허락한다면, 패널리스트로부터 등급을 제출받은 이후에, 모든 학생들에 대해서 [스테이션에서 어떻게 수행했는지에 대한 정보]를 줄 수 있다. 그런 다음 패널리스트는 추정치estimates을 변경할 수 있습니다. Judges과 Stations의 평균을 계산하면 OSCE의 합격 점수를 얻을 수 있다.

Case materials are reviewed by the panellists, and the preparation for data entry is similar. However, a single spreadsheet may be used, depending on the number of cases to be analysed as part of the standard setting process. Table 3 provides a sample spreadsheet format for the simulation we mentioned earlier, with five OSCE stations for an end-of-year test of 50 students. For this example, there are five judges. Once again, the characteristics of the examinees meeting the performance standard are discussed, test materials are presented and reviewed, and panellists begin the rating task. Practicing the method is essential. Using our example, a sixth case would be used for practice and discussion amongst panellists. The ratings from this case would not be used to generate the passing score. The case scores (in percent correct metric) for all students are presented in the last column of the table. If time permits, panellists could provide their ratings and then be given information on how all students performed on the stations. They can then change their estimates. Calculating the mean across judges and stations provides the passing score for the OSCE.

표준 설정 미팅 실시: 경계 그룹
Conducting the standard setting meeting: borderline group


수정된 Angoff 접근법(체크리스트 항목 및 사례 수준)이 OSCE 및 표준화된 환자 검사의 합격 점수를 결정하는 데 일반적으로 사용되지만, 패널리스트는 항목별 학점을 받거나 사례를 정확하게 관리할 수 있는 [수험생의 비율을 추정하는 것이 어렵다]고 생각할 수 있다. OSCE와 함께 자주 사용되는 [시험 자료보다는 수험생 성과에 초점을 맞추는 방법]이 [경계선 그룹 방식]이다. 경계선 그룹 방법은 "경계선" 수험자의 특성(예: 지식, 기술 및 능력)을 식별해야 한다. ["경계선" 수험생]은 지식과 기술이 적절하지 않지만, 부적절하지도 않은 수험생이다. 평가 자료(또는 실제 시험자 성과)는 패널리스트에 따라 명확한 실패, 경계선 또는 명확한 합격으로 분류됩니다. 그런 다음 [통과 점수]는 [경계선 그룹의 중위수(즉, 50번째 백분위수) 점수]로 설정된다(예: Rothman & Cohen 1996).

While both modified Angoff approaches (checklist items and case level) are commonly used to determine passing scores in OSCE and standardised patient examinations, panellists may find the task of estimating the percentage of examinees meeting the performance standard who will receive credit for items or who will correctly manage the case challenging (Boulet et al. 2003). A method that focuses on examinee performance rather than examination materials that is frequently used with OSCEs is the borderline group method. The borderline group method requires the identification of the characteristics (e.g. knowledge, skills, and abilities) of the “borderline” examinee. The “borderline” examinee is one whose knowledge and skills are not quite adequate, but are not inadequate (Livingston & Zieky 1982). Assessment materials (or actual examinee performances) are categorised by panellists as clear fail, borderline, or clear pass. The passing score is then set at the median (i.e. 50th percentile) score of the borderline group (e.g. Rothman & Cohen 1996).

OSCE에서 사용된 이 방법의 수정 중 하나는 [OSCE 시행 중에 수집된 판단을 사용]하는 것이다. 이 수정안에서는 심판 패널이 사용되지 않으며, 대신 관찰자는 각 스테이션에 대한 합격 점수를 도출하는 데 사용되는 정보를 제공한다. 전문가(예: 의사, 교수진)가 OSCE 관측소 점수를 매기는 데 사용되는 경우, 본 성과를 "경계선"으로 간주할지 여부를 질문할 수 있다. 이 접근 방식은 [시험이 진행되는 동안 심사관의 판단을 모아서 시간을 절약]할 수 있다. 시험관이 성적이 경계선으로 간주되는 수험생을 식별하면 '경계선'으로 분류된 모든 수험생의 중간 점수를 찾아 합격 점수를 계산할 수 있다.
One modification to this method that has been used with OSCEs is to use the judgments gathered during the OSCE administration (e.g. see Reznick et al. 1996). In this modification, a panel of judges is not used; instead, observers provide information used to derive the passing score for each station. If experts (e.g. physicians, faculty members) are used to score the OSCE stations, they can be asked whether the performance they have seen would be considered “borderline.” This approach can save time by gathering examiners’ judgments while the examination is being administered. Once examiners have identified examinees whose performance is considered borderline, the passing score can be calculated by finding the median score of all examinees who were classified as “borderline.”

이 접근 방식을 설명하기 위해 표 4에 제시된 수정된 Angoff 접근 방식에 사용된 것과 동일한 데이터 세트를 사용할 것이다. 50명의 학생들이 시험을 보았고, 시험관들은 관측된 성능이 각 역에서 "명백한 실패", "경계선", "명백한 통과" 또는 "우수"인지 여부를 나타내는 등급을 제공했다. 50명의 학생들 중, 9명은 OSCE 역에서 "경계선" 공연을 보여준 것으로 생각되었다. 측점에 대한 합격 점수를 도출하기 위해 중앙값(즉, 50번째 백분위수) 점수가 계산되었다. 이 예제의 경우 합격 점수는 스프레드시트 소프트웨어를 사용하여 식별되었습니다. MEDIAN (C23, C26, C29, C36, C37, C42, C42, C43, G2, G6); 여기서 "C"와 "G"는 OSCE 점수가 위치한 열을 나타내며 숫자는 경계선 수험자의 점수를 나타내는 행을 나타낸다. 이 예에서는 중위 점수가 64%이므로 64% 이상의 점수를 받은 수험생이 해당 스테이션을 통과하게 됩니다.

To illustrate this approach, we will use the same data set used for the modified Angoff approach, which is presented in Table 4. Fifty students were tested, and examiners provided a rating indicating whether the observed performance was a “clear fail,” “borderline,” “clear pass,” or “superior” at each station. Of the 50 students, nine were thought to have demonstrated “borderline” performance at the OSCE station. To derive the passing score for the station, the median (i.e. 50th percentile) score was calculated. For this example, the passing score was identified using spreadsheet software: MEDIAN (C23,C26,C29,C36,C37,C42,C43,G2,G6); where “C” and “G” indicate the columns where OSCE scores are located and the numbers indicate the rows for the scores of the borderline examinees. In this example, the median score is 64%, so examinees with scores of 64% or higher would pass the station.

이 접근법의 수정은 캐나다 의학 평의회Medical Council of Canada 에 의해 사용되며, 6점 등급 척도가 사용된다: 열등, 열등, 국경 불만족, 국경 만족, 양호 및 우수. [경계선 불합격]과 [경계선 합격]으로 평가된 수험생의 평균 스테이션 점수는 스테이션에 대한 합격 점수를 도출하기 위해 계산된다. 이 [수정 경계선 그룹 방법]은 스테이션에 대해 "경계선" 등급을 받은 수험생이 충분히 있을 때 잘 작동한다. 그러나 합격점수의 안정성은 [경계선 불만족]과 [경계선 만족]으로 분류된 수험자 수에 따라 달라진다. 만약 적은 수의 수험생만이 "경계선"으로 평가된다면, 그들의 스테이션 점수의 평균을 바탕으로 합격 점수를 계산하는 것은 안정적이지 않을 것이다. 즉, 두 개 또는 세 개의 점수에서 도출된 컷 점수와 관련된 신뢰성은 매우 낮을 가능성이 높다.
A modification of this approach is used by the Medical Council of Canada (Smee & Blackmore 2001), where a six-point rating scale is used: inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent. The mean station score for those examinees rated borderline unsatisfactory and borderline satisfactory is calculated to derive the passing score for the station. This Modified Borderline Group Method works well when there are enough examinees who were rated “borderline” for the station. However, the stability of the passing score is dependent on the number of examinees in the borderline unsatisfactory and borderline satisfactory categories. If few examinees are rated “borderline”, then calculating the passing score based on the mean of their station scores are not likely to be stable. That is, the reliability associated with a cut score derived from two or three scores is likely to be very low.

이러한 잠재적 단점을 극복하기 위해 Wood 등이 [회귀 접근법]을 연구하였다. OSCE 점수의 전체(모든 응시자) 범위를 사용하는 것은 소수의 수험생만 참여한 경우에 특히 유용할 수 있다. 경계선으로 분류된 수험생의 수가 매우 적을 수 있기 때문에, 결과적인 합격 점수는 모든 점수를 사용했을 때보다 정확도가 떨어질 수 있다. 이 수정된 방법에서

  • [체크리스트 점수]는 종속 변수이며,
  • [등급rating]은 독립 변수입니다.

회귀 분석의 목적은 스테이션에서 "경계선"으로 분류된 수험생의 체크리스트 점수를 예측하는 것이다.
To overcome this potential disadvantage, a regression approach was studied by Wood et al. (2006). Using the entire range of OSCE scores can be particularly useful if only a small number of examinees have participated. Because the number of examinees classified as borderline could be very small, the resulting passing score could be less precise than if all scores were used (Wood et al. 2006). In this modification,

  • the checklist score is the dependent variable;
  • the rating is the independent variable.

The goal of the regression analysis is to predict the checklist score of the examinees classified as “borderline” for the station.

경계 회귀 분석 방법은 간단하며 Microsoft Excel 워크시트를 사용하여 수행할 수 있습니다. 이 방법에 대한 자세한 내용은 그림 1-5에 나와 있으며, 7가지 단계를 설명합니다.
The borderline regression method is straightforward, and can be done using a Microsoft Excel worksheet. Details on the method are provided in Figures 1–5, which depict a series of seven steps.

  • 1단계: OSCE 점수 및 검사자 등급에 대한 스프레드시트를 준비합니다.
  • 2단계: "데이터" 탭을 클릭하고 팝업 창이 나타나면 "데이터 분석"을 선택합니다. 선택할 분석 도구는 "회귀"입니다.
  • 3단계: "입력 Y 범위"를 식별합니다. 예측되는 항목입니다. 이 경우 C열의 OSCE 점수입니다.
  • 4단계: "입력 X 범위"를 식별합니다. 점수 예측에 사용할 항목입니다. 이 경우 D열의 "검사자 PF1"이 제공하는 등급이 선택된다.
  • 5단계: 분석 결과의 위치를 확인합니다. 이 예제에서는 스프레드시트에 "시트 3"이라는 이름을 지정했습니다. 회귀 분석 창(오른쪽 위)에서 확인을 클릭합니다.
  • 6단계: 회귀 분석("요약 출력")의 출력은 "시트 3"에 있습니다.
  • 7단계: 합격 점수를 도출하는 공식은 다음과 같습니다.
    • 통과 점수 = (정격* " × 변수 1") + 가로채기.
    • 이 예에서 합격 점수는 75.4 = (2 × 11.561) + 52이다.326
    • 여기서 2는 등급의 중위수이고, 11.561은 "× 변수 1"이며, 52.326은 절편이다.
  • Step 1: Prepare a spreadsheet of OSCE scores and examiner ratings.
  • Step 2: Click on the tab labelled “Data,” and when the pop-up window appears, select “Data Analysis.” The analysis tool you will select is “Regression.”
  • Step 3: Identify the “Input Y Range” – what will be predicted. In this case, it is the OSCE scores in Column C.
  • Step 4: Identify the “Input X Range” – what will be used to predict scores. In this case, the ratings provided by “Examiner PF1” in Column D will be selected.
  • Step 5: Identify the location for analysis results. In the example, we gave the spreadsheet the name “Sheet 3.” Click OK in the “Regression” window (upper right side).
  • Step 6: The output from the regression (“Summary Output”) is in “Sheet 3.”
  • Step 7: The formula for deriving the passing score is:
    • passing score = (median of ratings* “ × Variable 1”) + Intercept.
    • For this example, the passing score would be 75.4 = (2 × 11.561) + 52.326
    • where 2 is the median of the ratings, 11.561 is the “ × Variable 1”, and 52.326 is the intercept.

검토 결과, 스테이션의 평가자가 특히 가혹하다는(또는 관대하다는) 결론으로 이어지는 경우, 합격 점수는 추정의 표준 오차(요약 출력에 "표준 오차"로 표시됨)에 의해 조정될 수 있다.
The passing score could be adjusted by the standard error of estimation (labelled “Standard Error” in the Summary Output), if review leads to the conclusion that the examiner at a station was particularly harsh (or lenient).

 

 

표준 설정 미팅 수행: 대조 그룹
Conducting the standard setting meeting: contrasting groups


[대조 그룹 방법]을 사용하려면 패널리스트가 검사자의 작업을 검토하고, 수행능력을 [허용되는 것] 또는 [허용되지 않는 것]으로 분류해야 합니다. 교육에서, 시험 외부 정보는 수험자를 이러한 범주로 분류하는 데 사용된다(햄블턴 외 2000) 유사한 내용의 다른 조치들이 있을 때, [두 그룹의 수험생]을 확인한다. 그런 다음 성능 표준이 확립된 테스트의 점수를 사용하여 [분포(그룹별로 하나씩)를 생성]하고, [분포를 비교]하여 [중복 정도를 결정]한다. 이는 '유능하다'고 평가되는 각 항목별, 점수 수준별 수험생 비율을 표로 표시해 이뤄진다. 합격 점수는 수험생의 약 50%가 유능하다고 판단되는 지점이다. 
The Contrasting Groups method requires panellists to review examinee work and classify the performance as acceptable or unacceptable (Livingston & Zieky 1982). In education, information external to the test is used to classify the examinees in these categories (Hambleton et al. 2000). When other measures with similar content are available, two groups of examinees are identified. Then, scores from the test on which performance standards are being established are used to generate distributions (one for each group), and the distributions are compared to determine their degree of overlap. This is done by tabulating the percentage of test-takers in each category and at each score level who are considered “competent”. The passing score is the point at which about 50% of the test-takers are considered competent.

보건 전문 교육에서 검사 프로그램의 경우, OSCE에서 측정한 것과 동일한 기술을 평가하는 외부 조치를 찾기 어렵다. 의료 교육에서 가장 일반적으로 사용되는 변형은 패널이 [관심 측정(즉, OSCE 또는 표준화된 환자 검사)]에 대해, [패널이 검토한 수행능력]이 [수행능력 표준과 관련된 특성]을 충족하는지 여부를 결정하도록 하는 것이다. [대조 그룹 방법]을 변형한 한 가지 예는 수행능력을 "competent"으로 평가하는 심사위원 수를 시험 점수로 회귀시켜 합격 점수를 도출하고, 패널리스트의 50%가 성과를 유능하다고 평가하는 지점에서 합격 점수를 설정했다.

For examination programmes in health professions education, it is difficult to find an external measure that assesses the same skills as those measured in the OSCE. The variation most commonly used in medical education is to have panellists decide whether the performance they review on the measure of interest (i.e. the OSCE or standardised patient examination) meets the characteristics associated with the performance standard. One example of a variation on this approach derived the passing score by regressing the number of judges rating the performance as “competent” to the test scores, and set the passing score at the point at which 50% of the panellists rated the performance as competent (Burrows et al. 1999).

[대조 그룹 방법]의 또 다른 [변형]에서, 패널들은 시험 점수에 대한 지식 없이, 시험에서 수험자들의 성과를 판단했다. 그런 다음 통과 점수는 [두 점수 분포의 교차점]으로 식별되었다. 이전 예제를 사용하여 이 접근 방식의 사용을 설명하겠습니다. 50명의 학생들이 시험을 보았고, 시험관은 관찰된 성과가 "실패" 또는 "합격"으로 간주되는지 여부를 나타내는 등급을 제공했다. 표 5는 시험관이 "실패" 또는 "합격"으로 평가한 수험자의 점수 범위와 개수가 포함된 데이터 세트를 보여준다. "Examiner's Decision"이라는 라벨이 붙은 칸 외에, 해당 범위 내의 점수를 가진 총 응시자 수가 제공된다. 이 예에서 심사관의 등급은 점수 범위와 별개입니다. 대신, 점수는 다른 평가자가 작성한 체크리스트를 기반으로 한다고 가정하십시오. 그 결과는 평가자가 확인한 수험생들이 가장 낮은 점수 범위에서도 합격으로 고려했음을 보여준다. 'Pass rate'이란 칸은 합격점을 점수 범위 바로 위에 설정했을 경우 합격할 수 있는 수험생 비율을 표시한 것이다.
In another variation of the contrasting groups method, panellists judged the performance of examinees on the test of interest without knowledge of their test scores (Clauser & Clyman 1994). The passing score was then identified as the intersection of the two score distributions. We will illustrate the use of this approach using our earlier example. Fifty students were tested, and the examiner provided a rating indicating whether the observed performance was considered “failing” or “passing.” Table 5 shows the data set with score ranges and counts of examinees rated “fail” or “pass” by the examiner. In addition to the columns labelled “Examiner's Decision,” the total number of examinees with scores within that range is provided. In this example, the examiner's ratings are separate from the score range; instead, imagine that the scores are based on a checklist completed by another rater. The results show that the rater identified examinees considered passing even in the lowest part of the score range. The column labelled “Pass rate” is an indication of the percentage of examinees that would pass if the passing score was set just above the score range.

 

예를 들어 합격 점수를 50%로 맞추면 46명의 수험생이 합격하고 합격률은 92%가 된다. 그림 6은 점수 분포의 중첩을 보여줍니다. Clauser & Clyman(1994)이 연구한 접근 방식을 고려할 때, 교차점은 65%의 권장 합격 점수를 생성할 것이다. 65% 이상 수험생은 합격하고 64% 이하 수험생은 불합격한다.
For example, if the passing score was set at 50% correct, 46 examinees would pass, and the pass rate would be 92%. Figure 6 illustrates the overlap in the score distribution. Considering the approach studied by Clauser & Clyman (1994), the point of intersection would generate a recommended passing score of 65%. Examinees with score of 65% or higher would pass, and those with score of 64% or lower would fail.

 

 

시험 수준 합격 점수 결정
Determining examination level passing scores

성과 기반 평가에서 수행된 [각 과제]에 대해 합격 점수를 도출하는 방법을 검토했지만, 종종 [시험 수준]의 합격 점수가 필요하다.

  • 수험생이 시험한 [각 과제나 기술]에서 합격점을 받아야 하는 경우 기준은 접속적conjunctive이다.
  • 모든 직무 또는 기술에 걸친 성과를 고려할 경우, 표준은 보상적compensatory 이다.

Although we have reviewed methods that would derive passing scores for each task performed in the performance-based assessment, a passing score at the examination level is often needed.

  • If examinees must receive a passing score on each task or skill tested, the standard is conjunctive.
  • If performance across all tasks or skills is considered, the standard is compensatory (Haladyna & Hess 1999; Ben-David 2000).

각 작업의 통과를 요구할 것인지 아니면 성능을 전반적으로 고려할 것인지를 결정할 때 고려해야 할 몇 가지 요소가 있습니다.

  • 첫째, 수험생 수행능력은 과제마다 서로 다를variable 가능성이 높다. 즉, 각 수험생의 성적에 불일치가 있을 가능성이 높다. 수험자는 하나의 과제에서 다른 과제보다 더 나은 수행능력을 보여줄 것이다.
  • 또한 개별 과제에 대한 신뢰도reliability는 모든 과제에 대한 신뢰도reliability보다 훨씬 낮을 가능성이 높다.
  • [결합적conjuctive 표준]은 더 많은 수의 학생이 불합격하게 될 가능성이 높기 때문에, 시험에 불합격하는 결과와 재학생 또는 반복학습의 [로지스틱스]를 고려해야 한다(Ben-David 2000).
  • [보상적compensatory 표준] 설정에는 검사 점수를 도출하기 위해 모든 작업에 걸쳐 성능을 평균(또는 합계)하는 작업이 포함됩니다. 보상적 표준은 수험생들이 한 과제의 낮은 성적을 다른 과제의 더 나은 성과로 보상할 수 있도록 한다. [과제(또는 기술)가 서로 상관관계가 있는 정도]에 따라 보상적 결정과 연결적 결정에 대한 지원을 제공할 수 있다(Ben-David 2000).

When deciding whether to require passing each task or considering performance overall, there are several factors to consider.

  • First, examinee performance is likely to be variable from task to task. That is, there is likely to be inconsistency in the performance of each examinee. On some tasks, an examinee will have a better performance than on others.
  • In addition, the reliability of the individual tasks is likely to be much lower than the reliability across all tasks.
  • Because conjunctive standards are likely to result in a higher number of students failing, the consequences of failing the examination and the logistics of resitting or repeating instruction must be considered (Ben-David 2000).
  • Compensatory standard setting involves averaging (or summing) performances across all tasks to derive the examination score. Compensatory standards allow examinees to compensate for poor performance on one task with better performance on another. The degree to which the tasks (or skills) correlate with each other can provide support to the compensatory vs. conjunctive decision (Ben-David 2000).

또 다른 방법은 성적이 [수험생에게 어떻게 보고되는지]를 고려하는 것이다. 이 결정은 표준 설정 프로세스를 관리하는 사람들이 파생된 합격 점수를 어떻게 사용할지 결정해야 하기 때문에 중요하다.

  • 접속 모델에서는 수험생이 시험에 합격하기 위해서는 과제별 점수를 맞추거나 초과해야 한다.
  • 보상 모델의 경우 과제별 평균 합격 점수를 사용하여 시험 수준 합격 점수를 설정할 수 있습니다.

[OSCE 스테이션]의 경우, 업무 전반에 걸쳐 의사결정을 내릴 수 있지만(보상적), 각 기술(예: 의사소통, 임상적 의사 결정)을 통과해야 시험에 합격할 수 있다. 수험생에게 제공되는 피드백에 대한 고려는 시험 수준 합격 점수를 설정하는 데 보상, 접속 또는 조합이 사용될 것인지를 결정하는 데 중요한 역할을 할 것이다.

Another option is to consider how performance is reported to examinees. This decision is important because those managing the standard setting process will need to decide how the derived passing scores will be used.

  • In the conjunctive model, examinees must meet or exceed the score for each task in order to pass the examination.
  • For the compensatory model, the average passing score across tasks can be used to set the examination-level passing score.

With OSCE stations, it may be that decisions can be made across tasks (compensatory) but each skill (e.g. communications, clinical decision-making) must be passed in order to pass the examination. Consideration of the feedback provided to the examinees will play an important role in determining whether compensatory, conjunctive, or a combination will be used to set the examination level passing score.

절충 방법
Compromise methods

[표준 설정 패널 목록]의 결과가 합격 점수를 결정하는 데 가장 중요한 요소이지만, 시험에 적용될 최종 합격 점수를 결정하는 데 추가 정보가 종종 사용된다. 고려되는 정보의 한 가지 유형은 합격 점수에 대한 합격-불합격 비율이다. 호프스티(1983년), 뷰크(1984년) 및 드 그루이테르(1985년)가 제안한 타협적 접근법은 패널리스트들에게 합격 점수와 합격(또는 불합격) 비율을 모두 고려하도록 명시적으로 요청한다. 각 접근 방식은 심판들이 "허용되는" 통과 점수와 통과 비율을 구성하는 것에 대한 의견을 가지고 있다고 가정한다.
Although results from the standard setting panellists are the most important elements in determining the passing score, additional information is often used to determine the final passing score that will be applied to examinations (Geisinger 1991; Geisinger & McCormick 2010). One type of information that is considered is the pass–fail rate for the passing score. The compromise approaches proposed by Hofstee (1983), Beuk (1984), and De Gruijter (1985) explicitly ask the panellists to consider both the passing score and the passing (or failing) rate. Each approach assumes that the judges have an opinion about what constitutes an “acceptable” passing score and passing rate.


호프스티는 [선택된 합격 점수]는 [모든 가능한 합격 점수] 중 하나일 뿐이라고 제안했다. 또한 가능한 모든 불합격률을 표시할 수 있습니다. 패널이 이러한 데이터를 고려했는지 확인하기 위해 설정 중인 표준(예: 최소 역량, 숙련도 등)이 논의되고 심사 과정의 세부 사항이 검토되며 패널은 다음 4가지 질문에 답해야 합니다.

Hofstee suggested that the chosen passing score was only one out of a universe of possible passing scores. In addition, it is feasible to plot all possible failure rates. To ensure that panellists have considered these data, the standard that is being set (e.g. minimal competence, proficiency, etc.) is discussed, the details of the examination process are reviewed, and the panellists are asked to answer four questions:

  1. 수용가능한 최저 합격률은 얼마인가? (최소 불합격률, fmin)
  2. 수용가능한 최고 합격률은 얼마인가? (최대 불합격률; fmax)
  3. 합격으로 간주되는 최저 합격 백분율 정답 점수는 얼마입니까? (최소 합격 점수; kmin)
  4. 합격으로 간주되는 최고 합격 백분율 정답 점수는 얼마입니까? (최대 합격 점수; kmax)
  5. What is the lowest acceptable percentage of students who fail the examination? (Minimum fail rate; fmin)
  6. What is the highest acceptable percentage of students who fail the examination? (Maximum fail rate; fmax)
  7. What is the lowest acceptable percent correct score that would be considered passing? (Minimum passing score; kmin)
  8. What is the highest acceptable percent correct score that would be considered passing? (Maximum passing score; kmax)

네 개의 데이터 점은 모든 심판에서 평균을 내어 계산됩니다. 표준 설정 패널의 네 가지 판단에 따라 시험에서 모든 합격점수에 합격할 수 있는 수험자의 비율이 그래프로 표시되고 네 가지 데이터 포인트가 표시됩니다. 그림 7은 Hofstee 방법의 적용 예를 보여줍니다. 이 예제에서는 140명의 학생이 50개 항목의 연말 시험을 치렀습니다.

The four data points are calculated by averaging across all judges. The percentage of examinees that would pass for every possible value of the passing score on the test is graphed and the four data points are plotted, based on the four judgments of the standard setting panel. Figure 7 provides an example of application of the Hofstee method. In this example, 140 students took a 50-item end-of-year test.

 

차트의 곡선은 시험에서 백분률 점수에 기반한 예상 불합격률을 나타냅니다. 강사들은 위에 나타난 네 가지 질문을 받았다.
The curve in the chart shows the projected failure rate based on percent correct scores on the test. Instructors were asked the four questions that appeared above:

  1. 수용가능한 학생들의 최저 합격률은 얼마인가? 평균: 20%
  2. 수용가능한 학생들의 최고 합격률은 얼마인가? 평균: 30%
  3. 합격으로 간주될 수 있는 최저 허용 백분율 정답 점수는 얼마입니까? 평균: 60%
  4. 합격으로 간주될 수 있는 최고 허용 백분율 정답 점수는 얼마입니까? 평균: 75%
  5. What is the lowest acceptable percentage of students who fail the examination? Average: 20%
  6. What is the highest acceptable percentage of students who fail the examination? Average: 30%
  7. What is the lowest acceptable percent correct score that would be considered passing? Average: 60%
  8. What is the highest acceptable percent correct score that would be considered passing? Average: 75%



심사위원의 정보를 사용하여 두 가지 포인트를 표시합니다. 즉, 허용 가능한 최저 불합격률과 허용 가능한 최고 정답률 점수의 교차점과 허용 가능한 최저 정답률 점수의 교차점입니다(그림 7 참조). 이 두 점은 정확한 점수와 예상 고장률로 정의되는 곡선과 교차하는 선을 생성합니다. 통과 점수는 교차점에서 x축까지의 점선을 따라(올바른 점수 백분율) 찾습니다. 실패율은 교차점에서 Y축까지의 점선을 따라(실패율) 구합니다.

Using the information from the judges, two points are plotted: the intersection of the lowest acceptable fail rate and the highest acceptable percent correct score; and the intersection of the highest acceptable fail rate and the lowest acceptable percent correct score (see Figure 7). These two points create a line that intersects the curve that is defined by percent correct score and projected failure rate. The passing score is found by following the dotted line from the intersection to the x-axis (percent correct scores). The fail rate is found by following the dotted line from the intersection to the y-axis (percent fail).

Beuk(1984)는 Hofstee 방법을 수정하여 최종 합격 점수를 도출할 때 패널리스트들이 각각의 판단을 어느 정도까지 고려해야 하는지를 보고해야 한다고 제안했다. 즉, 패널들은 그들의 결정이 어느 정도 [수험생 중심적]이거나 [시험 중심적]인지에 대한 질문을 받는다. [합격 점수]와 [합격 비율]의 [평균]과 [표준 편차]가 계산된다. 평균 합격률과 평균 합격 점수가 표시됩니다. 이 두 점이 교차하는 점이 차트에서 식별됩니다. 절충안은 합격률의 표준 편차와 합격 점수의 표준 편차의 비율을 사용하는 것으로 구성된다. 점수의 분포가 기울기를 기준으로 생성된 선과 교차하는 점이 합격 점수를 구성한다. De Gruijter(1985)는 패널리스트에게 이 두 가지 판단에 대한 불확실성 수준에 대한 추가 질문을 제기할 것을 추가로 제안했다. 뵈크와 드 그뤼테르의 방법은 의학 교육에 대한 문헌에 보고되지 않았지만, 호프스티의 방법은 많은 연구자들에 의해 사용되어 왔다.
In a modification of Hofstee method, Beuk (1984) suggested that the panellists report to what extent each of their judgments should be considered in deriving the final passing score. That is, panellists are asked the degree to which their decisions are examinee-oriented or test-oriented. The means and standard deviations of both the passing scores and acceptable pass rates are computed. The mean passing rate and mean passing score are plotted. The point on the chart where these two points intersect is identified. The compromise consists of using the ratio of the standard deviation of pass rate to the standard deviation of passing score. The point where the distribution of scores intersects the line generated based on the slope constitutes the passing score. De Gruijter (1985) further suggested that an additional question be posed to panellists, that of the level of uncertainty regarding these two judgments. Beuk's and De Gruijter's methods have not been reported in the literature for medical education, but the Hofstee method has been used by a number of researchers.


쉰들러 외 연구진은 외과 임상실습생의 합격 점수를 설정하기 위한 호프스티 접근법의 사용에 대해 보고했다. 개별평가(객관식, OSCE, 실습 성적, 프로페셔널리즘 등급) 대신 임상실습생 전체에 대한 합격점수를 설정하는 것이 목표였기 때문에 표준설정위원회는 [호프스티 방식]의 사용이 적절하다고 판단했다. 서로 관련되어 있는 평가를 여러 개 사용하면 프로페셔널리즘이 부족하더라도, 보상적인 기준이 마련될 것이라는 결론을 내렸다. 패널리스트는 호프스티 방식의 네 가지 질문에 답하기 전에 루브릭과 시험 자료를 채점하고, 예년에 불합격한 학생뿐만 아니라 모든 학생에 대한 점수 분포를 검토했다. 저자들은 판사들 사이에 높은 수준의 동의가 있었고, 도출된 합격률이 이전의 사무직 데이터에 적용되었을 때 합리적이라는 것을 발견했다.

Schindler et al. (2007) reported on the use of the Hofstee approach to set passing scores for a surgery clerkship. Because the goal was to set a passing score for the clerkship as a whole instead of individual assessments (multiple-choice examinations, OSCEs, clerkship grades, ratings of professionalism) the standard setting panel determined that the use of the Hofstee method was appropriate. The use of multiple, related assessments led the group to conclude that compensatory standards would be set, although a breech in professionalism could result in failing. Panellists reviewed score distributions for all students as well as those who had failed in previous years, along with scoring rubrics and examination materials before they responded to the four questions in the Hofstee method. The authors found that there was a high level of agreement amongst the judges, and that the pass rate derived was reasonable when applied to previous clerkship data.

표준 설정 방법 선택
Selecting a standard setting method

많은 방법들이 이용 가능한 상황에서, 어떤 방법이 "최고의" 방법인지 결정하는 것은 어려워 보일 수 있다. 표준 설정 방법을 선택할 때 [실용적인 고려 사항]이 있습니다. 이 방법은 [정보에 기초한 판단]을 허용해야 한다. 수행능력 데이터에 비추어 [전문가의 판단을 허용하는 과정]이 바람직하다. 선택한 방법은 평가 목표와 밀접하게 일치해야 합니다. 그 방법은 과정에 참여하는 사람들의 사려 깊은 노력이 요구되어야 하며, 그것은 연구에 기초해야 한다. 마지막으로, 방법은 참가자들에게 설명하기 쉬워야 하며, 구현하기 쉬워야 한다.
With many methods available, it may seem difficult to decide which the “best” method is. When selecting a standard setting method, there are practical considerations to be made. The method should permit judgments that are based on information; processes that permit expert judgment in light of performance data are preferable. The method chosen should be closely aligned with the goal of assessment. The method should require thoughtful effort of those participating in the process, and it should be based on research. Finally, the method should be easy to explain to participants, and easy to implement.


[합격선 설정 연구]는 [권장합격점수]를 생성하며, [시험목적]과 [합격선 설정 프로세스]에 맞는 수행수준에 해당해야 한다는 점을 명심해야 한다. 예를 들어,

  • 시험이 [추가 훈련이나 교정조치가 필요할 수 있는 학생]의 식별에 사용되는 경우, [합격]은 [다음 단계의 학습에 준비가 된 학생] 그룹을 나타내며, [불합격]은 [과정을 반복해야하는 그룹]을 식별한다. 이 경우 성과 수준은 독립적 실무 역량에 해당하는 수준만큼 높지 않을 수 있다.
  • 만약 시험이 [졸업할 준비가 된 사람]을 선별하여 [감독하 진료]를 하는 환경에 들어가는 데 사용된다면, 시험을 [통과]한 사람들은 [감독하 진료에 들어갈 준비와 관련된 특징]을 가지고 있다. 이 시험들을 통과한 결과는 다른 의미를 가지며, 합격 점수의 최종 결정은 이러한 차이를 고려하게 될 것이다.

최선의 방법을 식별할 수는 없지만, 이 가이드에 기술된 실제 고려사항뿐만 아니라 테스트의 목적에 기초하여 선택해야 한다.

It is important to keep in mind that the standard setting study will generate a recommended passing score and that the score should correspond to a level of performance that meets the purpose for the test and the standard setting process. For example,

> if the test is used for identification of students who may need additional training or remediation, then passing denotes the group of students ready for the next phase of study, while failing identifies the group who may repeat the course. In this case the level of performance may not be as high as the level that corresponds to competence in independent practice.
> If the test is used to represent those who are ready to graduate, and enter a setting with supervised practice, those who pass the test possess the characteristics associated with readiness to enter supervised practice. The result of passing these tests has different meanings and the final determination of the passing score will take these differences into account.

While it is not possible to identify the best method, the selection should be based on the purpose of the test, as well as practical considerations delineated in this guide.

표준 구현
Implementing the standard

표준 설정 연구는 "권장" 합격 점수를 생성하기 때문에 [합격선 설정 프로세스의 결과를 구현하기 전]에 고려해야 할 추가적인 문제들이 있다. 내려야 할 중요한 결정 중 하나는 합격 점수가 [보상]점수가 될 것인가 아니면 [결합]점수가 될 것인가 하는 것이다.

  • OSCE 및 표준화된 환자 검사의 경우 일반적으로 여러 스테이션이 포함된다. 평가가 사례별로 평균(또는 합산)되는 경우, 합격 점수는 유사한 방식으로 생성되어야 한다(예: 사례들의 평균 또는 합산). 이 예에서 합격선은 [보상적]인 것으로 간주됩니다. 합격 점수를 충족하거나 초과한 사람은 합격할 것이며, 한 스테이션에서 저조한 성능은 다른 스테이션에서 더 나은 성능을 통해 보상될 수 있습니다.
  • 또는 각 사례/스테이션에 대해 합격 점수를 얻을 수 있으며, 평가를 통과하기 위해 정해진 수의 사례를 통과해야 한다는 추가 요구사항이 있을 수 있다. 이 경우 합격선은 [결합적conjuctive]일 것이다. 사례는 종종 임상 및 대인관계 기술을 모두 측정하기 때문에 이러한 기술 각각에 대해 합격 점수를 생성할 수 있으며, 합격 요건은 각 기술 영역에서 합격 점수를 충족하거나 초과해야 한다. 이 접근법도 [결합적]인 것으로 간주될 것이다.

Since the standard setting study will generate a “recommended” passing score, there are additional issues to be considered before implementing the results of the standard setting process. One important decision to make is whether the passing score will be compensatory or conjunctive. 

> For OSCEs and standardised patient examinations, several stations are typically included. If the assessment is averaged (or summed) across cases, the passing score should be generated in a similar fashion (i.e. averaged or summed across cases). In this example, the standard would be considered compensatory; those who meet or exceed the passing score will pass, and poor performance at one station can be compensated by better performance at another station.

>  Alternately, a passing score could be derived for each case/station, and an additional requirement could be that a set number of cases have to be passed in order to pass the assessment. In this case, the standard would be conjunctive. Because cases often measure both clinical and interpersonal skills, passing scores could be generated for each of these skills, and the requirement to pass would be to meet or exceed the passing score in each skill area. This approach would also be considered conjunctive.

합격-불합격 결정이 [보상적 결정]인지 또는 [결합적 결정]인지를 결정할 때, 이 영역에서 수행된 연구를 고려하는 것이 중요하다. 서로 다른 과제에 대한 성과는 상당히 가변적일 수 있으며(Traub 1994), 단일 사례에 대한 성과는 시험자의 능력을 신뢰할 수 있는 지표가 될 가능성이 낮다(Linn & Burton 1994).

  • 개별 스테이션에 기초한 [결합적 합격선]은 불합격율을 높이고 측정 오류로 인해 잘못된 결정을 내릴 수 있습니다.
  • 스킬 영역에 기반한 [결합적 합격선]에서도 불합격율이 높아지겠지만, [영역별 보상 없이] 영역별 합격점수를 충족하도록 요구하는 것이 타당하다.

When deciding whether the pass–fail decision will be compensatory or conjunctive, it is important to consider the research done in this area. Performance on different tasks can be quite variable (Traub 1994), and performance on a single case is not likely to be a reliable indicator of an examinee's ability (Linn & Burton 1994).

  • Conjunctive standards based on individual stations will result in higher failure rates, and can result in incorrect decisions due to measurement error (Hambleton & Slater 1997; Ben-David 2000).
  • While higher failure rates will also result from conjunctive standards based on skill area, it is reasonable to require that the passing score be met for each area without compensation in each area.

벤-데이비드(2000)는 보상적 및 결합적 합격선에 대한 결정을 내리는 데, [평가에 의해 측정된 구조]에 대한 고려가 필수적이라고 제안한다. [평가의 목적]과 [결과에 대한 피드백]은 의사결정에 포함시켜야 할 중요한 기준이다. 예를 들어, 수험생들이 신체검사 기동을 개선해야 하지만, 병력청취와 의사소통 능력이 충분하다는 것을 알게 하는 것은 매우 유용할 것이다. 이 경우 측정된 기량을 바탕으로 별도의 합격 점수를 정하는 것이 합리적일 것이다.
Ben-David (2000) suggests that consideration of the construct measured by the assessment is essential in making a decision about compensatory and conjunctive standards. The purpose of the assessment and the feedback given regarding the results are important criteria to include in making a decision. For example, it would be very useful to have examinees know that they need to improve their physical examination manoeuvres, but that their history taking and communication skills are adequate. In this case, it would be reasonable to set separate passing scores based on skills measured.

시험 결과를 [수험생과 다른 이해관계자에게 보고하는 형식]도 고려 대상이다. OSCE가 연말 평가로 관리되는 경우, 낙제 학생(및 강사)은 기술 향상에 노력을 집중할 수 있도록 강점과 약점의 영역에 대해 알고 싶어할 수 있다. 심지어 합격한 학생들도 그들이 개선할 수 있는 부분이 있었는지 알고 싶을 것이다. 피드백을 제공하는 것은 특히 낙제 수험생들에게 중요하다.
Another consideration is the format of reporting the results of the examination to test-takers and other stakeholders. If the OSCE is administered as an end-of-year assessment, students who fail (and their instructors) may want to know about areas of strength and weakness, so that they can concentrate their efforts on skill improvement. Even students who pass may want to know whether there were any areas in which they could improve. Providing feedback is important, particularly for failing examinees (Livingston & Zieky 1982; American Educational Research Association et al. 1999).

마지막으로, [합격자 비율]에 대한 고려가 필수적이다. 생성된 결정의 결과를 이해하는 것은 의사결정자들이 프로세스를 이해하고 지지하도록 보장하는 데 필수적이다. 표준설정회의 중 권장합격점수를 생성하는 것은 실현가능하지 않으므로, 이해관계자(예: 교직원, 부서장)와의 회의를 실시하여 연구결과를 알리고, 시사점(즉 합격 인원)을 제시해야 한다.
Finally, consideration of the percentage of examinees passing is essential. Understanding the consequences of the decisions generated is vital to ensuring that decision makers comprehend and endorse the process. It is not likely that it will be feasible to generate the recommended passing score during the standard setting meeting, so a meeting with stakeholders (e.g. faculty members, head of departments) should be conducted to inform them of the results of the study, and to present the implications (i.e. number passed).

합격선 유지
Maintaining the standard

회의를 수행하고 합격 점수를 생성하고 승인한 후에는, 다음 테스트 사이클에서 합격 점수를 어떻게 생성할 것인지 고려해야 합니다. 수험생의 성적과 시험 난이도가 행정마다 달라질 수 있기 때문에, 같은 합격점수도 시간이 지나면 같은 효과를 내지 못할 수 있다. 시험자료가 개정되면 다시 한 번 표준설정회의를 진행하는 것이 필수다. 시험자료가 변경되지 않더라도 수험생의 성적과 난이도는 물론 합격점수 시행의 결과(즉 합격률 변화)를 모니터링하는 것이 중요하다.

  • 시험이 쉬워지고(즉, 수험생이 더 높은 점수를 얻는 것) 합격 점수가 그대로 유지되면 합격률이 높아질 가능성이 높다.
  • 반대로 시험이 어려워지면 합격률이 떨어질 가능성이 높다.

정기적으로 시험과 관련된 변화를 고려하여 표준 정의와 합격 점수를 재검토하는 것이 좋다. 시험이 다음 수준의 훈련으로 진행되거나 독립적인 실무에 들어가는 것을 의미하는지 여부에 관계없이 수험자 자격을 결정하는 데 사용되는 경우 시험 성과를 모니터링하는 것이 필수적이다.
Once the meetings have been conducted and the passing score has been generated and endorsed, it is time to consider how the passing score will be generated for the next testing cycle. Because the performance of examinees and the difficulty of the test can change from administration to administration, the same passing score may not have the same effect over time. If test materials are revised, it is essential to conduct the standard setting meeting once again. Even if the test materials are not changed, it is important to monitor the performance of examinees and difficulty of the test, as well as the consequences of implementing the passing score (i.e. changes in passing rates).

  • If the test becomes easier (i.e. examinees obtain higher scores) and the passing score remains the same, the passing rate is likely to increase.
  • Conversely, if the test becomes more difficult, the passing rate is likely to decrease.

Revisiting the definition of the standard as well as the passing score in light of changes associated with the test on a regular basis is advised. Monitoring test performance is essential if the test is used for determining examinee qualifications, whether it means going on to the next level of training or entering independent practice.

결론들
Conclusions

[객관식 시험]과 [수행능력 기반 시험]에 대해 합격선 설정에 대한 광범위한 연구가 있지만, "올바른" 합격점수와 "최고의" 방법은 없다. 방법에 따라 결과가 달라집니다. 검사 목적과 표준 설정 작업에 사용할 수 있는 리소스에 따라 방법 선택이 달라집니다. 제시된 방법, 제공된 지침 및 사례들은 방법의 선정, 표준 설정 회의 준비, 회의의 실시 및 얻은 데이터의 분석, 표준의 구현 및 유지에 관한 결정을 알리기 위한 정보를 제공하기 위한 것이다.

Although there is extensive research on standard setting with both multiple-choice and performance-based tests, there is no “right” passing score, and no “best” method. Different methods yield different results. Selecting a method depends on the purpose of the examination and the resources available for the standard setting effort. The methods presented, the guidelines provided, and the examples given are meant to provide information to inform decisions regarding selection of a method, preparation for a standard setting meeting, conducting the meeting and analysing the data obtained, and implementing and maintaining the standard.

 


Med Teach. 2014 Feb;36(2):97-110. doi: 10.3109/0142159X.2013.853119. Epub 2013 Nov 20.

How to set standards on performance-based examinations: AMEE Guide No. 85

Affiliations collapse

Affiliation

1FAIMER, Research and Data Resources , USA.

PMID: 24256050

DOI: 10.3109/0142159X.2013.853119

Abstract

This AMEE Guide offers an overview of methods used in determining passing scores for performance-based assessments. A consideration of various assessment purposes will provide context for discussion of standard setting methods, followed by a description of different types of standards that are typically set in health professions education. A step-by-step guide to the standard setting process will be presented. The Guide includes detailed explanations and examples of standard setting methods, and each section presents examples of research done using the method with performance-based assessments in health professions education. It is intended for use by those who are responsible for determining passing scores on tests and need a resource explaining methods for setting passing scores. The Guide contains a discussion of reasons for assessment, defines standards, and presents standard setting methods that have been researched with performance-based tests. The first section of the Guide addresses types of standards that are set. The next section provides guidance on preparing for a standard setting study. The following sections include conducting the meeting, selecting a method, implementing the passing score, and maintaining the standard. The Guide will support efforts to determine passing scores that are based on research, matched to the assessment purpose, and reproducible.

평가자의 합격선설정과정에 대한 이해와 수행능력을 지원하기 위한 피드백(Med Teach, AMEE Guide No. 145)
Feedback to support examiners’ understanding of the standard-setting process and the performance of students: AMEE Guide No. 145 
Mohsen Tavakola, Brigitte E. Scammella and Angela P. Wetzelb

 

서론
Introduction

인간이 다른 인간을 평가하는 경우, 많은 요소들이 그들의 주관적인 판단을 흐리게 할 수 있다. 평가된 콘텐츠 영역의 불확실성 또는 평가 상황에서 입증되는 예상 지식 및 기술 수준에 대한 명확성의 결여는 측정 오류를 초래할 수 있는 잠재적인 편견의 원천이다. 교육 시스템에서, 정확한 학생 평가는 어려울 수 있지만 공정한 측정을 위해 필수적이며 학생들의 점수에서 적절한 추론을 도출할 수 있도록 보장하는 데 필수적이다.

In instances where humans rate other humans, many factors can cloud their subjective judgments. Uncertainty in the content area assessed personal biases or lack of clarity on expected levels of knowledge and skills demonstrated in a rating situation are potential sources of bias that may lead to measurement error. In educational systems, accurate student assessment can be challenging but is essential for fair measurement and is essential to ensuring appropriate inferences can be drawn from students’ scores.

'[공정성]은 [시험 응시자의 구인-무관한 개인적 특성]이 [시험 결과나 해석]에 유의미한 영향을 미치지 않도록 요구한다.' (ETS) 2002. 구성-무관 분산CIV은 체계적인 측정 오류의 원인입니다(Haladyna 및 Downing 2005). CIV는 관련 성과 측정과 무관한 체계적인 오류로서, 인플레이션이나 등급 하락으로 인해 실제 점수에 영향을 미칠 수 있다(Lord and Novick 1968). 또한 체계적인 오류는 점수의 오역misinterpretation으로 이어져 시험 점수의 타당성을 제한할 수 있다.
‘Fairness requires that construct-irrelevant personal characteristics of test-takers have no appreciable effect on test results or their interpretation’ (Educational Testing Service (ETS)) 2002). Construct-irrelevant variance is a source of a systematic measurement error (Haladyna and Downing 2005). This systematic error, unrelated to measuring the relevant performance, can influence true scores due to inflation or deflation of ratings (Lord and Novick 1968). Further, systematic errors can lead to misinterpretation of scores, limiting test score validity.

객관 구조화 임상 검사(OSCE)와 입학 OSCE(MMI)는 [체계적인 오류systematic errors]로부터 면역되지 않는다. 예를 들어, 이러한 의료 교육 맥락에서,

  • 스테이션 불규칙성 또는 스테이션의 결함
  • 일반적인 평정 오류(예: 관용 오류, 심각도 오류, 중심 경향 오류, 후광 효과, 불일치),
  • 하위 그룹을 위해 제작된 스테이션의 불공정성
  • 강건한 합격점의 결여

...은 모두 구성 무관 분산CIV의 잠재적 원천이다. CIV는 다음의 것들을 저하시킬 수 있다.

  • 시험 점수 해석의 관련성과 적절성,
  • 시험 점수에 기초한 결정의 정당성
  • 시험 점수에 대한 외부 타당성 증거

Objective Structured Clinical Examinations (OSCEs) and admission OSCEs (Multiple Mini- Interviews) are not immune from systematic errors. For example, in these medical education contexts,

  • station irregularities or flawed stations,
  • common errors in ratings (e.g. generosity error, severity error, central tendency error, halo effect, inconsistency),
  • the unfairness of stations crafted for subgroups, and
  • a lack of a robust pass mark

...are potential sources of construct-irrelevant variance. The sources of construct-irrelevant variance could minimise

  • the relevance and appropriateness of test score interpretations,
  • the legitimacy of a decision based on test scores and
  • the external validity evidence for test scores (Downing 2002).

CIV에 기여하는 대부분의 오류는 [각 검사자가 학생 및 검사자 간의 성과 등급에 대한 데이터를 받는] [검사자 교육 및 개별화된 교정 피드백]을 통해 최소화할 수 있다. [개별화된 피드백]은

  • 동일한 학생을 평가하는 여러 평가자의 일관성을 개선하고,
  • 관찰자 간 신뢰성과 공정성을 지원하며,
  • 점수 해석에 대한 신뢰도를 높일 수 있다.

Most of the errors that contribute to construct-irrelevant variance can be minimised through examiner training and individualised calibration feedback where each examiner receives data on their performance ratings across students and between examiners. Individualised feedback could

  • improve the consistency of multiple raters assessing the same student,
  • supporting inter-observer reliability and fairness, and
  • enhancing confidence in score interpretations.

[공정한 평가]는 '모든 시험 응시자에 대해 [동일한 구인]을 반영하며, 그 결과 점수는 [의도된 모집단의 모든 개인]에게 [동일한 의미]를 갖는다'(American Educational Research Association, A. P. A. & National Council on Measure in Education 2014)이다. 이 가이드의 목적은 평가를 공정하고 유효하며 신뢰할 수 있도록 하기 위한 노력으로 [학생 성과 및 표준 설정 프로세스]에 대한 [examiner의 관찰과 평가]를 지원하기 위해 [개인화된 피드백]을 위한 다양한 방법을 제공하는 것이다. 여기에는 심사관의 성과 변동성, 경계선 학생, 등급 정확도, 등급 정확도 향상을 위한 피드백, 표준 설정자와 OSCE 심사관 모두를 위한 다양한 접근 방식을 사용하는 심판에게 피드백을 시각화하는 내용이 포함된다.

A fair assessment is one that ‘reflects the same construct(s) for all test takers, with scores from it having the same meaning for all individuals in the intended population’ (American Educational Research Association, A. P. A., & National Council on Measurement in Education 2014). The purpose of this Guide is to provide various methods for individualised feedback to support examiners’ observations and evaluations of student performance and the standard-setting process with an effort to make assessments fair, valid and reliable. It will cover the following topics:

  • performance variability of examiners,
  • the borderline students,
  • rating accuracy,
  • feedback to improve rating accuracy,
  • visualising feedback to judges using different approaches, both for standard setters and OSCE examiners.

심사관의 성과 변동성
Performance variability of examiners

학생들의 실력을 평가할 때, 많은 요소들이 [학생들의 진점수true score]에 영향을 미친다. OSCE 시험에서, 이상적으로, 학생들의 성과는 그들이 글로벌 등급 척도 및 체크리스트 점수로 받은 등급과 일치해야 한다. 그러나 [민족성, 성별, 시험관 엄격성/관용성, 측정되는 현상과 관련한 시험관 배경]과 같은 [평가자의 인구통계학적 특성]이 학생 점수에 영향을 미칠 수 있기 때문에 편향이 발생할 수 있다. 이러한 [평가자 특성]은 측정에 구성 무관 분산CIV을 추가하여 실제 점수에 비해 점수가 증가하거나 감소할 수 있습니다. [학생 수행]은 학생의 평가 등급이 [학생의 수행]보다 [평가자의 특성]이 더 반영되는, [독특한 평가자 효과idiosyncratic examiner effect]의 함수가 되어서는 안 된다. 결과 점수는 학생의 성과를 반영해야 하며, [독특한 검사 경험의 영향]을 최소화해야 한다. 시험관은 [합격선 설정] 및 [학생 성취도 측정] 모두에서 중요한 역할을 하므로, 각 역할에 대한 교육은 두 영역 모두에서 중요하며 별도로 논의된다.

In assessing students’ skills, many factors affect the true score of students. In OSCE exams, ideally, student performance should be matched with the ratings that they receive from the global rating scale and checklist scores. However, this may not happen as examiner demographic characteristics, such as ethnicity, gender, examiner stringency/leniency, and examiner background with the phenomenon being measured may affect student scores. Such examiner characteristics could add construct-irrelevant variance to measurement, resulting in increased or decreased scores relative to the true score. Student performance should not be a function of the idiosyncratic examiner effect, where the examiner rating of a student is a reflection of their characteristics rather than the student’s performance. Outcome scores should reflect student performance and be affected minimally by the idiosyncratic examiner experience. Examiners play an essential role in both setting the standard and measuring student performance; therefore, training for each role is important in both areas and is discussed separately.

표준 설정
Standard-setting

[합격선 설정 과정]은 지식 기반 테스트와 OSCE를 포함하여, 표준 설정자가 특정 테스트에 대한 합격점을 계산하는 방법을 포함한다. 평가 제공자, 학생 및 평가 결과 이용자의 마음속에 있는 질문은 '얼마면 충분할까?'이다(Cusimano 1996). 표준 설정자들은 [능력 있는 사람]과 [능력 없는 사람]을 구별하는 기준을 설정하기 위해 다른 방법을 사용한다. 알려진 표준 설정 방법이 다른 곳에서 잘 설명되기 때문에, 여기서는 설명하지 않는다. 관심 있는 독자는 다른 AMEE 가이드(Ben-David 2000; McKinley and Norcini 2014)에서 표준 설정 방법에 대한 추가 정보를 찾을 수 있습니다.

The standard-setting process involves a method in which standard setters calculate a pass mark for a particular test, including knowledge-based tests and OSCEs. The question in the minds of assessment providers, students and users of assessment outcomes is ‘how much is enough?’ (Cusimano 1996). Standard setters use different methods to establish the standard to discriminate competent from incompetent. Given that the known methods of setting standards are well described elsewhere, they are not discussed here. Interested readers can find further information about standard-setting methods in other AMEE Guides (Ben-David 2000; McKinley and Norcini 2014).

경계선 그룹
The borderline group

[경계선에 있는 학생(때로는 최소 능력 학생minimally competent student으로 불림)]을 판단하는 것이 표준 설정 과정의 초석이다. 예를 들어, 앙고프 방법과 에벨 방법에서 표준 설정자들은 [가상의 경계선 그룹]의 특징을 선언한다. 다음으로, 그들은 경계선에 있는 학생이 [각 항목에 올바르게 답할 확률]을 추정합니다. 각 표준 설정자는 해당 그룹에 대한 자체적인 자의적 판단을 가지고 있습니다. 우리가 아는 한, 표준 설정 문헌에는 경계선이나 최소한의 능력 있는 학생에 대한 [경험적 정의가 없다]. 전형적으로 합격점 주변에 성적 수준이 있는 학생들은 경계선 그룹이지만, 경계선 그룹을 경험적으로 연구하기 위해서는 얼마나 가까운지(예: 1% 이내, 2% 이내 또는 표준 측정 오차(SEM))에 대해 [임의의 범위]를 만들어야 한다. 예를 들어, 합격 표시 주변의 경계선 점수 범위를 식별할 수 있습니다. 다음으로, 1 SEM 이하에서 1 SEM 이상까지의 범위에 있는 학생은 경계선으로 간주됩니다.
Judging a borderline student (sometimes called a minimally competent student) is the cornerstone of the standard-setting process. For example, in the Angoff method and the Ebel method, standard setters declare the features of a hypothetical borderline group of students. Next, they estimate the probability that a borderline student will answer each item correctly. Each standard-setter has their own arbitrary judgment of that group. To our knowledge, there is no empirical definition of borderline or minimally competent students in the standard-setting literature. Typically, the students who have a performance level around the pass mark are the borderline group, but we have to make an arbitrary range for how close, (e.g. within 1%, 2% or within a standard error of measurement (SEM)) in order to study the borderline groups empirically. For example, we could identify a range of borderline scores around the pass mark. Next, students who lie within the range from one SEM below to one SEM above the pass mark are considered borderline.

표준 설정 문헌에서는 '경계선 또는 최소 역량'의 개념에 대한 의문이 제기되어 왔다. 예를 들어, 표준 설정자는 정확하고 일관된 표준을 확립할 수 있는 능력을 가지고 있는가? (Glass 1978). [표준 설정자]나 [표준 설정 방법]이 변경되면 합격 점수가 영향을 받아 합격점의 신뢰성과 안정성에 부정적인 영향을 미칠 수 있다(Meskauskas 및 Webster 1975). 더 중요한 것은, 구인 무관 분산CIV이 측정에 도입될 수 있다는 것이다. 계산된 표준이 합리적이고 방어 가능한 결과를 생성하는 경우(합격 횟수가 너무 많거나 실패 횟수가 많지 않은 경우) 변덕스럽지 않은 표준을 보장하기 위해 표준 설정 문헌에 알려진 방법을 따를 필요가 있다(예: Cizek 2006, Skorupski 2012). Standards for Educational and Psychology Testing 는 이렇게 말한다:
Questions about the concept of ‘borderline or minimal competence’ have been raised in the standard-setting literature. For example, do standard setters have the ability to establish an accurate and consistent standard? (Glass 1978). When the standard setters or standard-setting methods are changed, the passing score can be affected, negatively impacting the credibility and stability of the pass mark (Meskauskas and Webster 1975). More importantly, the construct-irrelevant variance may be introduced to measurement. To ensure standards that are not capricious, where the calculated standard produces a reasonable and defensible outcome (not too many passes and not too many fails), it is necessary to follow the known methods in the standard-setting literature (e.g. Cizek 2006, Skorupski 2012). Standards for Educational and Psychology Testing state:

  • 합격선 설정 절차를 따른다면,
    • 채택된 방법을 명확히 기술하고,
    • 요구된 판단의 정확한 성격을 제시해야 한다.
    • 절차의 문서화 시에는 다음을 포함해야 한다.
      • Judges의 선택과 자격,
      • 제공되는 훈련,
      • 임시 판결의 함의에 대한 심판에게 주어진 피드백,
      • 판결자가 서로 협의할 수 있도록 주어진 기회
    • 해당되는 경우 판결자의 변동성variability over judges을 보고해야 한다.
    • 가능하다면, 만약 이 합격선 설정 절차를 [반복할 경우에 예상할 수 있는 컷 점수 변동의 양에 대한 추정치]가 제공되어야 한다.
  • ‘If a judgmental standard-setting process is followed,
    • the method employed should be clearly described, and
    • the precise nature of the judgments called for should be presented.
    • Documentation should also include
      • the selection and qualification of judges,
      • training provided,
      • any feedback to judges concerning the implications of their provisional judgments, and
      • any opportunities for judges to confer with one another.
    • Where applicable, variability over judges should be reported.
    • Whenever feasible, an estimate should be provided of the amount of variation in cut scores that might be expected if the standard-setting procedure were replicated’ (American Educational Research Association, A. P. A., & National Council on Measurement in Education 2014).

앙고프법
Angoff method

판단적 접근법(네델스키 1954; 앙고프 1971; 에벨 1979; 예거 1989) 내에서 [앙고프 표준 설정 방법]은 의학 교육 평가에 널리 사용되고 있으며, 계산된 합격 앙고프 점수는 [허용 가능한 성과]와 [허용되지 않는 성]과 사이의 경계로 이어진다. 앙고프 방법의 기원은 앙고프가 아니라 레드야드 터커(미국 심리학자)에게 있다. 그러나 1971년 Angoff는 Educational Measurement 라는 책의 각주에 각 표준 설정자가 다음과 같이 진술하도록 요청받는 절차를 썼다.
Within the judgmental approaches (Nedelsky 1954; Angoff 1971; Ebel 1979; Jaeger 1989), the Angoff standard-setting method is widely used in medical education assessment, and the calculated passing Angoff score leads to the boundary between the acceptable and unacceptable performance. The origin of the Angoff method lies not with Angoff, but Ledyard Tucker (American Psychometrician); yet, in 1971, Angoff, wrote in a footnote in the book Educational Measurement a procedure in which each standard setter is asked to state:

  • '최소한의 수용가능한 사람'이 각 항목에 정확하게 답할 확률'. 실제로, judges은 그러한 한 사람만이 아닌, [다수의 최소 수용 가능한 사람들]을 생각할 것이고, [정답을 맞출 수 있는 최소 수용 가능한 사람들의 비율]을 추정할 것이다. 이러한 확률 또는 비율의 합은 최소 허용 점수를 나타냅니다(515페이지).
  • ‘the probability that the “minimally acceptable person” would answer each item correctly. In effect, the judges would think of a number of minimally acceptable persons, instead of only one such person, and would estimate the proportion of minimally acceptable persons who would answer correctly. The sum of these probabilities, or proportions, would then represent the minimally acceptable score, (p. 515)’

Angoff의 운영 정의는 이 접근법의 단순성을 보여주지만, 이 접근 방식은 표준 설정자가 경계선 학생에 대해 갖는 주관적 해석에서 오류의 위험에 남아 있다. 또한, 경험적 연구에 따르면 표준 설정자는 [항목에 대한 경계선 학생의 성과를 과소평가하거나 과대평가]하여, 경계선 학생을 정확하게 평가하는 데 어려움을 겪고 있다(Impara and Plake 1998; Goodwin 1999; Clauser et al. 2002; Clauser et al. 2008). 이는 Angoff 접근 방식이 '임의적이고 명확성이 부족함'임을 시사한다(Stone et al. 2011).
Angoff’s operational definition shows the simplicity of this approach, and yet the approach remains at risk of error in the subjective interpretations that standard setters have of borderline students. Further, empirical studies show that standard setters struggle to accurately rate borderline students, underestimating or overestimating the performance of borderline students on items (Impara and Plake 1998; Goodwin 1999; Clauser et al. 2002; Clauser et al. 2008), suggesting the Angoff approach to be ‘random and lacking in clarity’ (Stone et al. 2011).

경계선 그룹과 Angoff 방법 접근법에 대한 이러한 비판은 표준 설정자 간의 변동variation이 [설정될 표준]을 손상시킬 수 있고, 따라서 평가된 점수의 정확성을 손상시킬 수 있다는 사실에 관심을 갖게 한다. 즉, 표준 설정자의 통과 점수 사이에 상당한 차이가 있을 경우 이러한 방법을 사용하지 말아야 함을 시사한다.
These criticisms of the borderline group and Angoff method approaches draw our attention to the fact that the variation among standard setters could compromise the set standard and thus the accuracy of assessed scores, suggesting these methods should not be used if there is a significant difference between the standard setters’ passing scores.

등급 정확도를 높이기 위한 표준 설정자에 대한 피드백
Feedback for standard-setters to improve rating accuracy

표준 설정자 교육은 표준 설정 프로세스의 필수적인 부분이며, 피드백은 훈련의 필수적인 부분입니다. 표준 설정자에게 피드백을 제공하는 것은 측정 오차의 영향을 더 잘 이해하고(또는 적어도 고려하고), 안정적인 표준을 추정할 수 있는 기회를 제공한다(Recase 및 Chen 2012). Angoff 방법과 경계선 그룹 접근법으로 이전에 논의된 한계를 고려할 때, 표준 설정자의 성능에 대한 피드백은 후속 검사 정확도에 긍정적인 영향을 미칠 수 있다. 특히, 표준 설정자 내 불일치intrastandard-setter discrepancies [(무효 항목의 출처), (린덴 1982)]는 표준 설정자 간 결과를 공유하여 식별할 수 있다. 이러한 피드백 데이터는, 그 자료를 개별로 검토하고 그룹 토론을 통해 보정함으로써, 경계 그룹 및 컷 스코어 설정을 개선할 수 있습니다. 표준 설정자에게 [다른 표준 설정자에 대한 등급과 비교한 피드백]을 제공하면 합격 표시에 부착된 오류를 줄일 수 있다. 또한 피드백을 통해 표준 설정자는 추정 합격 점수를 신뢰할 수 있고 방어할 수 있는지 확인하고 [앙고프 등급]의 신뢰성과 유효성을 개선할 수 있다.

Standard-setter training is an integral part of the standard-setting process, and feedback is an essential part of the training. Giving feedback to standard setters provides an opportunity for them to understand better the impact of measurement error (or at least consider it) and estimate a stable standard (Reckase and Chen 2012). Given the previously discussed limitations with the Angoff method and borderline group approach, feedback on standard setters’ performance may have a positive effect on subsequent examiner accuracy. Specifically, intrastandard-setter discrepancies [(a source of invalidating items), (Linden 1982)], can be identified with results shared with standard setters. These feedback data, reviewed at the individual level and calibrated through group discussion, can improve borderline group and cut score setting. Providing standard setters with feedback about their ratings relative to other standard setters may reduce the error attached to the pass mark. Furthermore, feedback allows standard setters to ensure that the estimated passing scores are credible and defensible and improve the credibility and validity of Angoff ratings.

[피드백의 목적]과 [표준 설정자에 대한 이러한 방법이 얼마나 소화 가능한지]에 따라, 피드백을 제공하는 여러 가지 접근법이 있다. 전반적으로, 피드백의 궁극적인 목표는 표준 설정자들이 [경계선 학생들의 개념화]에 대한 그들의 [등급을 재고할 수 있는 기회]를 제공하는 것이다. 피드백은 [계산된 합격점수]가 아니라 [심판들judges의 변동성]에 초점을 맞춰야 한다는 점에 유의해야 한다(Hambleton et al. 2012). 피드백은 표준 설정자가 항목을 검토 및 토론하고 경계선 학생을 위한 항목 추정치를 작성할 때 표준 설정자에게 제공될 수 있으며, [표준 설정 회의]를 시작하기 전의 공식 훈련시간 중에 피드백을 공유할 수 있다. 자세한 내용에 관심이 있는 독자는 AMEE Guide No 119(타바콜과 데닉 2017)를 참조할 수 있다. 아래에서, 우리는 다른 접근 방식을 가진 피드백의 형태에 대해 논의한다. 시각화된 모든 데이터는 가상적이며 R 프로그래밍 코드로 작성된다는 점에 유의해야 한다. 프로그래밍 코드로부터 더 많은 정보를 수신하는 데 관심이 있는 사람들은 해당 작성자에게 연락할 수 있다.
There are several approaches to provide feedback, depending on the purpose of the feedback and how digestible these methods are for standard setters. Overall, the ultimate goal of feedback is to provide an opportunity for standard setters to reconsider their ratings on borderline students’ conceptualisation. It should be noted that feedback should focus on judges' variability, not the calculated pass mark (Hambleton et al. 2012). Feedback could be provided to standard-setters at the time they review and discuss items and make item estimates for borderline students, or feedback could be shared during formal training prior to starting the standard-setting meeting. Readers interested in more details can refer to AMEE Guide No119 (Tavakol and Dennick 2017). Below, we discuss the forms of feedback with different approaches. It should be noted that all visualised data are hypothetical and written with R programming codes. Those who are interested in receiving more information from the programing codes may contact the corresponding author.

기술 통계량
Descriptive statistics

표준 설정자 피드백을 포함하여, 모든 연구의 데이터에 대한 [기술 통계]는 데이터 시각화를 용이하게 하므로 결과에 대한 간단한 해석을 제공한다. 표준 설정자와 평균 항목 난이도를 포함한 학생들의 수행에 대한 서술적 통계를 공유하면 피드백 과정에 도움이 될 수 있다. 합격점을 나타내는 그래프 내에 수직선과 함께 학생들의 점수 분포의 히스토그램 그래프를 그리면 심사위원들은 그들이 설정한 합격점과 관련하여 학생들의 점수 분포를 더 깊이 이해할 수 있다. 가장 중요하게는, [항목과 시험의 평균 항목 난이도 값을 제공]하는 것은 표준 설정자들에게 [시험이 얼마나 어려운지]를 말해준다. 표준 설정자는 평균 항목 난이도(전체 시험의 난이도)를 기준으로 개별 항목의 난이도를 비교할 수 있었다. 게다가, 그들은 확립된 합격 점수와 문항들의 평균 난이도를 비교할 수 있다. 난이도 항목 지수는 AMEE Guide No. 54번에서 객관적 시험의 사후 분석(Tavakol and Dennick 2011)에 설명되어 있다.
Descriptive statistics of data in any research study, including standard-setters feedback, facilitate data visualisation and thus provide a simple interpretation of the results. Sharing the descriptive statistics of students’ performance, including the mean item difficulty with standard setters, can help in the feedback process. Plotting a histogram graph of students’ mark distribution along with a vertical line within the graph indicating the passing mark allows judges to gain a deeper understanding of the distribution of students’ marks in relation to the passing mark they established. Most important, providing the mean item difficulty value of the items and test tells the standard-setters how difficult the test was for the students. Standard setters could compare individual items’ difficulty based on the mean item difficulty (the overall test’s difficulty). In addition, they can compare the established passing score with the average difficulty of the questions. In AMEE Guide No. 54, the difficulty item index is explained in the Post-Examination Analysis of Objective Tests (Tavakol and Dennick 2011).

 

오차 막대 차트
Error-bar charts

[오차 막대]는 표준 설정자에게 피드백을 제공하는 강력한 도구입니다. 오류 막대를 사용하면 표준 설정자가 제공하는 Angoff 등급을 비판적으로 평가할 수 있다. 오차 막대는 측정 오차가 아니라 평균 주변의 데이터 범위 또는 산포를 나타내는 T자형 막대입니다(즉, 표준 편차). 오류 막대는 또한 경계선 학생을 좁거나 광범위하게 등급을 매긴 표준 설정자에게 주의를 끌기 위해 사용될 수 있다.

  • [작은 T자 모양]의 막대는 데이터 점(Angoff 등급)이 평균에 가깝다는 것을 알려주고,
  • [큰 T자 모양]의 막대는 데이터 점이 평균과 구별된다는 것을 알려줍니다.

Errors bars are powerful tools for providing feedback to standard setters. Error bars allow us to critically assess the Angoff ratings provided by the standard setters. An error bar is a T-shaped bar representing a range or spread of data around the mean (i.e. standard deviation), not a measurement error. The error bar can also be used to draw attention to standard setters who rated borderline students narrowly or broadly.

  • A small T-shaped bar tells us data points (Angoff ratings) are close to the mean, and
  • a large T-shaped bar tells us data points are distinct from the mean.

그림 1은 Angoff 방법에서 모든 항목과 표준 세터의 평균 추정(검은색 원)과 표준 세터 간의 변동성에 대한 피드백의 예를 보여준다. 점선은 계산된 합격점를 나타냅니다. X축은 표준 세터(N = 10)를 나타내고 Y축은 모든 항목의 평균 등급을 나타냅니다. X축 번호는 표준 세터의 코드이므로 이 그림을 사용하여 합격 점수를 결정하는 데 관련된 모든 표준 세터에 기밀 등급을 표시할 수 있습니다. 표준 설정자는 자신에게 주어진 코드를 알고 있어야 한다. 예를 들어, 표준 설정자 1과 5는 막대 차트에서 코드를 찾고 항목에 대한 평균 추정 등급이 다른 표준 설정자와 다르다는 것을 확인할 수 있습니다. 그러나 세터 1과 5는 다른 표준 세터보다 자체 추정에서 여전히 더 동질적이라는 것을 보여주는 작은 T 모양의 막대를 가지고 있습니다. 표준 세터 6, 8, 9는 다른 표준 세터에 비해 큰 T자형 막대를 가지고 있다. 앞서 언급한 바와 같이, 이는 표준-세터 간 불일치를 암시할 수 있으며, 결과적으로 서로 다른 합격점을 초래할 수 있다. 예를 들어, 쉬운 문제에서는 경계선 학생의 낮은 앙고프 평점과 어려운 문제에서는 높은 앙고프 평점이 그것이다. 이 두 등급은 일정하지 않다. 전자는 낮은 통과 점수를 초래하는 반면, 후자는 높은 통과 점수를 초래한다(린덴 1982). 높은 등급은 표준을 위로 밀어 올리고 낮은 등급은 표준을 아래로 밀어냅니다. 주목할 점은, 때때로 표준 설정자가 등급에 확신을 가지고 있다면 등급의 불일치가 있어도 방어가능하다는 것이다(Recase와 Chen 2012).

Figure 1 shows an example of feedback about the mean estimation (black circles) of all items and standard setters and the variability among standard setters in the Angoff method. The dashed line represents the calculated pass mark. The X-axis represents the standard setters (N = 10), and the Y-axis represents the average ratings of all items. The X-axis numbers are the standard setters' codes, so this plot can be used to present confidential ratings to all the standard setters involved in determining the passing score. Standard setters should be aware of the code given to them. For example, standard setters 1 and 5 can look for their code in the bar chart and see that their average estimation rating for the items is different from other standard setters. However, setters 1 and 5 have small T-shaped bars showing they are still more homogeneous in their own estimations than other standard setters. Standard setters 6, 8 and 9 have large T-shaped bars compared to other standard setters. As previously noted, this may suggest intrastandard-setter inconsistency, subsequently resulting in different pass marks. For example, a low Angoff rating for a borderline student on an easy question and a high Angoff rating on a hard question. These two ratings are not consistent. The former results in a low pass mark, whereas the latter results in a high pass mark (Linden 1982). High ratings push the standard upwards, and low ratings push the standard downwards. Of note, sometimes inconsistencies in ratings are defendable if the standard setters are confident in their ratings (Reckase and Chen 2012).

 

그림 1은 또한 각 라운드의 표준 설정 프로세스 동안 사용될 수 있으며, 표준 설정자가 과제와 경계선 학생의 개념화에 대한 피드백을 받을 수 있다. 과제에 익숙하지 않거나, [경계선 학생을 개념화하기 어려워하는 사람들]은 다른 표준 설정자에 비해 [극단적인 앙고프 등급]을 제공하는 경향이 있다는 점을 언급할 가치가 있다(Recase 및 Chen 2012).

Figure 1 can also be used during the standard-setting process for each round, allowing standard-setters to receive feedback about the task and the conceptualisation of borderline students. It is worth stating that those who are not familiar with the task and struggle to conceptualise borderline students tend to provide extreme Angoff ratings compared to other standard setters (Reckase and Chen 2012).

평균 정격에서 표준 설정자의 위치
Location of the standard setters on the mean ratings


표준 설정자에게 피드백을 제공하는 또 다른 시각화 방법은 각 설정자의 표준과 시험에 대해 계산된 합격 점수를 척도로 찾는 것이다(Recase 및 Chen 2012). 그림 2는 표준 세터의 분포를 각각의 알파벳 코드와 함께 보여준다. 검정색 선은 시험에 대한 식별된 합격 표시이다.

Another visualisation method to give feedback to standard setters is to locate, on a scale, the standard for each of them and the passing score calculated for the exam (Reckase and Chen 2012). Figure 2 shows the standard setters’ distribution with an alphabetical code for each of them. The black line is the identified pass mark for the test.

 

그림 2는 표준 설정자의 개별 표준 추정치와 모든 표준 설정자에 기초한 평균 추정치의 위치를 사용하여 피드백의 예를 보여준다. 수평선은 시험의 보고 마크 척도를 나타낸다. 줄의 각 문자는 한 평의 합격선 설정자의 판단에 따른 합격점(통과 점수) 위치를 나타낸다. 문자는 표준 설정자의 코드이므로 이 그림은 합격 점수를 결정하는 데 관여한 모든 표준 설정자에게 기밀로 표시될 수 있습니다. 표준 설정자는 코드를 부여받으므로 나머지 표준 설정자와 관련하여 추정된 표준을 알 수 있습니다. 예를 들어, 합격선 결정자 N은 보고기준 척도에서 70점으로 합격점을 추정하였다. 표준 설정자는 제공된 등급이 다른 표준 설정자의 등급보다 높은 추정 합격점을 초래했다는 것을 깨달을 수 있다.

Figure 2 illustrates this example of feedback with the locations of standard setters’ individual estimates of the standards and the average estimate based on all of the standard setters. The horizontal line represents the reporting mark scale for the test. Each of the letters on the line represents the standard (pass mark) location and results from the judgment of a single standard setter. The letters are the standard setters’ codes, so this plot can be confidentially presented to all the standard setters who have been involved in determining the passing score. The standard setters are given their code, so they know their estimated standard in relation to the rest of the standard setters. For example, standard-setter N gave ratings that resulted in an estimated standard at 70 on the reporting mark scale. The standard-setter can realise that the provided ratings resulted in an estimated pass mark above that of other standard setters.

이 피드백 방법은 평가 제공자에게 간단하며 쉽습니다. 이 때문에 본 가이드의 목적을 위해 표준 설정자에게 피드백을 제공하는 온라인 대화형 시스템을 설계했습니다. 이 시스템을 사용하면 표준 설정자가 모든 문항의 평균 추정을 조작manipulate하여, 축 상에서 새로운 통과 점수를 가지고 각 표준 설정자의 위치를 볼 수 있다. 
This feedback method is straightforward and easy for assessment providers. Because of this, and for the purpose of this Guide, we have designed an online interactive system that provides feedback to standard setters. Using this system allows the standard setters to manipulate the average estimation of all questions to see each standard setter's location along with the new passing score on the scale axis. The online interactive feedback can be found at https://mt17.shinyapps.io/feed/.

경험적 항목 난이도에서 Angoff 등급의 편차
Deviation of Angoff ratings from empirical item difficulties

항목에 대한 실제 난이도(통계 가설 검정과 관련된 p-값과 혼동하지 않아야 함)로부터의 [Angoff 등급]의 편차는 '항목 추정 정확도item estimate accuracy'의 문제이다. [편차가 작을수록] 항목 추정 정확도의 타당성validity이 커집니다(Brandon 2004). [질문에 올바르게 답한 학생의 비율(즉, p-값)]은 표준 설정자에게 '현실 피드백reality feedback'으로 피드백된다. 이를 통해 표준 설정자는 평가 문항의 난이도를 더 잘 이해할 수 있다. 표준 설정자 문헌은 경계선에 대한 실제 p-값과 p-값을 개별 표준 설정자 등급과 비교하여 피드백을 제공한다는 것을 보여줍니다. 그러나 경계선 그룹에 대한 명확한 경험적 정의가 없다는 것을 기억하십시오. 경계선 그룹이 임의로 정의되더라도(예: 합격 표시 ± SEM) 소수의 경계선 학생만 합격점에 근접한 점수를 받을 수 있습니다. 따라서 합격점 위 또는 아래로 샘플이 편향되어 발생하지 않도록 경계 그룹을 정의해야 합니다. 표본에 대한 해석을 신뢰하기 위해 경계선 그룹의 평균 표시를 설정된 통과 표시와 비교합니다. 합격 표시에 가장 가까운 평균 점수는 경계선 그룹 p-값에 대해 덜 편향된 표본을 생성합니다. 표준 설정자의 일관성은 '표준 설정 등급이 항목의 상대적 난이도와 일치해야 한다'(Reid 1991)는 Reid(1991)가 제안한 경계선 그룹에 대한 p-값 또는 전체 학생 그룹에 대한 p-값과 비교하여 평가할 수 있다.
The deviation of Angoff ratings from actual difficulty levels (sometimes referred to as p-values, not to be confused with the p-values related to statistical hypothesis testing) for the items is a matter of 'item estimate accuracy’. The smaller the deviation, the greater the validity of the item estimate accuracy (Brandon 2004). The proportion of students who correctly answered the question (i.e. p-values) are fed back to standard setters as ‘reality feedback.’ This helps standard-setters get a greater understanding of the level of difficulty of assessment questions. The standard-setter literature shows both actual p-values and p-values for the borderline group are compared to individual standard-setter ratings to provide feedback. However, recall that there is no clear empirical definition of the borderline group. Even if the borderline group is defined arbitrarily (e.g. pass mark ± SEM), only a small number of borderline students may receive a mark around the pass mark. Therefore, the borderline group should be defined so as not to lead to a biased sample either above the pass mark or below the pass mark. To be confident of interpretations for the sample, the average mark of the borderline group is compared with the established passing mark. The average score closest to the pass mark produces a less biased sample of the borderline group p-values. Standard-setters’ consistency can be evaluated by comparing their ratings to the p-values for the borderline group or the p-values for the entire student group as suggested by Reid (1991), where ‘Standard setting ratings should be consistent with the relative difficulties of items’ (Reid 1991).

표준 설정자의 등급과 기준 그룹(경계선 학생 또는 전체 학생 그룹)에 대한 실제 항목 난이도의 차이를 측정하는 다양한 방법이 있으며, 이는 다음과 같다.
There are different methods to measure the differences between standard setters’ ratings and the actual item difficulty for the reference group (the borderline students or the entire student group), which are demonstrated below.

그룹 막대 차트
Group bar charts

그룹 막대 차트는 [항목 난이도에 대한 표준 설정자의 등급(예: Angoff 등급)]과 [경계선 학생의 실제 평균 항목 난이도]를 비교하기 위해 생성됩니다. 그림 3은 각 표준 세터에 대한 평균 앙고프 등급(A.R.)을 보여줍니다. 실선은 경계선 그룹의 평균 p-값을 나타내고, 점선은 설정된 통과 표시를 나타내며, 실선은 경계선 학생의 평균 표시를 나타냅니다. 이 차트를 보면 표준 설정자(N = 10)는 합격 표시와 경계선 학생의 실제 평균 항목 난이도 간의 뚜렷한 차이를 관찰합니다. 또한, 각 표준 설정자는 자신의 합격 점수를 다음과 비교할 수 있다.

  • 다른 표준 설정자(S.S.)
  • 결정된 합격점(Passmark),
  • [경계선 학생(BPV)의 평균 문제 난이도]와 

Group bar charts are created to compare the standard setters’ ratings of item difficulty (e.g. Angoff ratings) and the actual mean item difficulty for borderline students. Figure 3 shows the mean Angoff ratings (A.R.) for each standard setter. The solid line represents the mean p-values for the borderline group, the dashed line represents the established pass mark, and the solid line represents the mean mark of borderline students. By looking at this chart, the standard setters (N = 10) observe a distinct difference between the pass mark and the actual mean item difficulty for borderline students. In addition, each standard-setter can compare their passing score

  • with other standard setters (S.S.),
  • with the established pass mark (Passmark) and
  • with the mean difficulty of questions for borderline students (BPV).

 

이 그룹 막대 차트를 추가로 분석한 결과, [경계선 학생의 평균 점수(평균)]가 [표준 설정자가 설정한 합격점수]보다 높음을 알 수 있어 경계선 학생의 성적을 과소평가했음을 시사한다. 따라서 경계선 학생이 진정한 경계선 학생을 정확하게 반영하지 못하여 표본편향이 발생한다.
Further analysis of this group bar chart suggests the mean mark (Mean) of the borderline students is higher than the pass mark set by the standard setters, suggesting an underestimation of the performance of borderline students. Therefore, the borderline students do not accurately reflect the true borderline students, and thus, sampling bias occurs.

 

개별 항목에 대한 그룹 막대 차트
Group bar charts for individual items

표준 설정자는 각 항목과 경계선 그룹에 대한 [문항별 p-값]을 기준으로 등급에 대한 피드백을 받을 수도 있습니다. 이 피드백은 '표준 설정자가 개별 항목에 대한 경계 그룹 능력을 얼마나 정확하게 추정할 수 있었는가?'라는 질문을 명확히 한다. 개별 항목과 Angoff 등급을 기반으로 하는 막대 그래프는 표준 설정자 내 일관성에 유용한 정보를 제공할 수 있습니다. 표준 설정자는 경계선 학생들의 성과와 일치하는 방식으로 문제를 평가해야 한다. Angoff 등급과 개별 항목 p-값 간의 차이가 작을수록 표준 세터의 내부 일관성 수준이 높아집니다.
Standard setters can also be given feedback on their ratings based on each item and the associated item p-value for the borderline group. This feedback clarifies the question, ‘How accurately could the standard setters estimate the borderline group ability for individual items?’. Bar plots based on the individual items and the Angoff ratings could provide useful information for intrastandard setter consistency. A standard-setter is expected to rate questions in a way that is consistent with the performance of the borderline students. The smaller the difference between the Angoff ratings and individual item p-values, the higher the level of internal consistency of the standard setter.

그림 4는 개별 앙고프 등급과 경계선 학생의 개별 항목 p-값과의 연관성을 나타낸다. 이 안내서의 목적을 위해 네 가지 항목을 시연합니다. 그림 4는 표준 설정자 1이 여러 문항에 걸쳐 등급이 일관되지 않음을 보여주며, 경계선 그룹에 어려운 문항에서는 쉬운 문항으로 평가되며, 쉬운 문항에서는 높은 등급을 부여하여 표준 설정자 내 불일치를 나타낸다.

Figure 4 represents the individual Angoff rating and their association with individual item p-values for the borderline students. For the purpose of this Guide, four items are demonstrated. Figure 4 demonstrates standard-setter 1 is not consistent in ratings across questions, where the question was difficult for the borderline group, it is rated as easy, and where the question is easy, it rates hard, indicating intrastandard setter inconsistency.

 

 

항목 p-값에 대한 등급의 상관 관계
Correlation of ratings to item p-values

표준 설정자가 자신의 판단을 반영할 수 있는 또 다른 방법은 [개별 항목 수준 등급]과 [p-값] 간의 상관관계이다. 이는 표준 설정자에게 '평가자 판단과 관찰된 항목 난이도 값의 순위 순서ranking order관점에서 등급을 비교한 정도'를 전달한다. 이 피드백 정보를 통해 표준 설정자는 등급과 p-값 사이의 연결을 연결할 수 있다(버켄다히와 데이비스-베커 2012).
Another method that allows standard-setters to reflect on their judgments is the correlation between individual item level ratings and p-values. This communicates to standard setters ‘the extent to which their ratings were compared in terms of rank ordering of their judgments and observed item difficulty values’. This feedback information allows standard setters to link connections between ratings and p-values (Buckendahi and Davis-Becker 2012).


표준 설정 문헌에서는 (전체 학생에 대한) [개별 표준 설정자의 등급]과 [경험적 p-값] 사이의 상관관계경계선 학생에 대한 [개별 표준 설정자의 등급]과 [경험적 p-값] 사이의 상관관계에 대해 논의하고 있다[(예: (Brandon 2004). 그러나 Angoff가 권고한 대로 (전체 학생에 대한) [개별 표준 설정자의 등급]을 [경험적 p-값]과 비교하는 것은 결과의 잘못된 값으로 이어질 수 있다. 그는 [표준 설정자의 등급]과 [합격점에 가까운 점수를 받은 학생들] 사이의 관계를 조사할 것을 제안했다(Smith와 Smith 1988). 이 경우에, [개별 평가자의 (난이도) 추정치]와 [관찰된 항목들의 난이도] 사이의 상관관계가 낮다면 표준 설정자들의 등급에 대한 타당성 우려를 야기한다(Brandon 2004). 그러나 이는 시험 내용 타당성이나 추정치의 정확성의 문제가 아니다. 시험 합격점을 계산하는 데 사용되는 프로세스의 타당성의 문제이다(Smith and Smith 1988). 그러나 강한 상관관계를 달성한다고 해서 강력한 합격 점수가 설정되는 것은 아니다. 경계선 학생에 관해서 [등급]과 [p-값] 사이의 강한 상관관계는 [기준 참조criterion-referenced 접근법]에서 [표준norm-referenced 참조 접근법]으로 이동하는 표준 설정자와 함께 질문 평가 과정의 결함을 의미할 수 있다(Linn et al. 1991). Linn과 동료들은 높은 상관관계에 대한 가능한 이유를 다음과 같이 전달한다.

In the standard-setting literature, there is a discussion of both the correlation between the individual standard setters’ ratings and the empirical p-values and the correlation between the individual standard setters’ ratings and the empirical p-values for the borderline students [(e.g. (Brandon 2004)]. However, as Angoff recommended, comparing the individual standard-setters’ ratings with the empirical p-values may lead to a misleading value of the results. He suggested the relationship between standard setters’ ratings and students with a total mark close to the passing mark be examined (Smith and Smith 1988). As such, the low correlation between the individual judges’ estimates and the observed difficulty of the items raises validity concerns regarding the standard setters' ratings (Brandon 2004). However, it is not a matter of the test content validity or the accuracy of estimates; it is an issue of the validity of the process used to calculate that test’s pass mark (Smith and Smith 1988). However, achieving a strong correlation does not ensure that a robust passing score is established. A strong correlation between ratings and p-values for borderline students may imply a flaw in the question rating process with standard setters moving from the criterion-referenced approach to the norm-referenced approach (Linn et al. 1991). Linn and colleagues communicate possible reasons for a high correlation:

  • 평가자들이 학생들을 위한 [문항의 난이도]에 민감하다는 것은 분명해 보인다. 그러나 이러한 민감도가
    • 문항 p-값과 문항 검정 회귀에 대한 인식 때문인지,
    • 평가자의 난이도에 대한 비공식적이고 암묵적인 이해 때문인지,
    • 항목에 대한 주관적인 판단 때문인지는 알 수 없다.
  • 'It seems clear that judges are sensitive to the difficulty of items for students. It is unknown, however, whether this sensitivity is due
    • to their awareness of the item p-values and item test regressions,
    • to the raters' informal and implicit understanding of difficulty, or
    • to subjective judgments of the items'.

관심 있는 독자는 표준 설정 프로세스를 다른 곳에 알리기 위해 표준 데이터(영향 데이터) 피드백 공유와 관련된 추가 정보를 제공할 수 있다(Recase and Chen 2012; Tavakol and Dennick 2017).
Interested readers can find further information about providing additional information related to sharing normative data (impact data) feedback to inform the standard-setting process elsewhere (Reckase and Chen 2012; Tavakol and Dennick 2017).

조건부 p-값 피드백
Conditional p-value feedback

앞서 언급한 바와 같이, [전체 학생 그룹에 대한 p-값]과 [표준 설정자가 제시한 등급] 사이의 상관관계는 해당 시험의 합격점을 계산하는 데 사용되는 과정에 대한 잘못된 피드백을 제공할 수 있다. 마찬가지로 [합격점에 가까운 점수를 받은 소수의 경계선 학생]은 [경계선 학생의 성과에 대한 표준 설정자의 진정한 판단true jedgement]에 대한 편향된 판단biased rating을 유발할 수 있다. Rasch 모델과 같은 문항 반응 이론(IRT) 모델은 합격 표시에 가까운 경계선 학생을 선택하는 데 수반되는 문제를 완화한다. 래쉬 모델은 학생이 [학생의 능력에 따라 질문에 정확하게 답할 수 있는 조건부 확률]을 보여줍니다. 래쉬 모델에서 앙고프 등급은 개념화된다. 관심 있는 독자들은 AMEE Guide No. 72(Tavakol and Dennick 2012)에서 래쉬 모델에 대한 추가 정보를 찾을 수 있다.
As previously stated, the correlation between p-values for entire groups of students and the ratings rendered by the standard setters may provide misleading feedback of the process used to calculate that test’s pass mark. Similarly, a small number of borderline students who scored close to the passing mark may produce a biased rating of the standard setters’ true judgment of the borderline students’ performance. Item response theory (IRT) models, e.g. the Rasch model, mitigate the issues attached to selecting the borderline students close to the pass mark. The Rasch model shows us the conditional probability that a student will answer a question correctly based on the student’s ability. Under the Rasch model, Angoff ratings are conceptualised. Interested readers can find further information about the Rasch model in AMEE Guide No. 72 (Tavakol and Dennick 2012).

[라쉬 모형]에서 [문항 반응 조건부 p-값]은 [Angoff 등급] 및 [p-값]을 사용하여 계산됩니다. 경험적 조건부 p-값과 평균 등급 사이의 관계는 산점도 및 상관 계수를 사용하여 조사됩니다. 또한 선형 회귀선과 관련 결정 계수가 다루어진다. 이 모형에서 결정 계수(R2)는 평균 Angoff 등급과 조건부 p-값이 [공유하는 분산의 백분율]로 해석됩니다. 일반적으로 R2가 높을수록 평균 Angoff 등급이 조건부 p-값을 더 잘 예측합니다. 즉, 판단judgment과 조건부 p-값 사이에 작은 차이가 있습니다.

  • '이 correspondence은 앙고프 절차의 일환으로 내려진 판단을 평가하는 중요한 근거로 받아들여졌다.'(Clauser et al. 2009).

The Rasch model item response conditional p-values are calculated using the Angoff ratings and p-values. The relationship between empirical conditional p-values and the average ratings are examined using scatterplots and correlation coefficients. In addition, a linear regression line and the associated coefficient of determination are addressed. In this model, the coefficient of determination (R2) is interpreted as the percentage of variance shared by the mean Angoff ratings and the conditional p-values. In general, the higher the R2, the better the mean Angoff ratings predict the conditional p-values. Put another way, there are small disparities between the judgments and the conditional p-values.

  • ‘This correspondence has been accepted as an important basis for evaluating judgments made as part of the Angoff procedure’ (Clauser et al. 2009).

그림 5는 [평균 Angoff 등급]과 [조건부 p-값] 사이의 관계를 나타내는 산점도입니다. 보시다시피 평균 Angoff 등급과 조건부 p-값 사이에 0.42의 상관 관계가 얻어집니다. 따라서 R2는 0.18입니다. 즉, 평균 Angoff 등급의 변동은 조건부 p-값의 변동으로 설명됩니다. 또한, 판단과 조건부 p-값 간의 차이를 식별하여 검토할 영역을 식별할 수 있다. 판단과 조건부 p-값 간의 차이가 20% 이상이면(이 컷오프 값은 임의적이고 판단적이며 변경될 수 있음), 데이터 점은 산점도에 다른 색으로 표시됩니다. 그림 5에서 산점도의 회색 점으로 표시되어 있다.

Figure 5 shows a scatterplot indicating the relationship between the mean Angoff ratings with the conditional p-values. As you can see, a correlation of 0.42 is obtained between the mean Angoff ratings and the conditional p-values. Therefore, R2 is 0.18, i.e. 18% of the mean Angoff ratings’ variation is explained by the variation in the conditional p-values. Further, the difference between judgments and conditional p-values can be discerned to identify areas for review. If the difference between judgments and the conditional p-values is more than 20% (this cut-off value is arbitrary and judgmental and can be changed), the data points are marked with a different colour on the scatterplot. In Figure 5, they are shown in grey dots on the scatterplot.

 

패스마크의 신뢰성 및 신뢰성
Reliability and dependability of pass marks

[일반화 가능성(G) 이론의 결과]는 항목과 표준 세터에 걸친 통과 표시와 관련된 오류의 근원을 최소화하기 위해 표준 세터에 피드백될 수 있다. 특정 테스트의 합격 표시는 표준 세터 및 항목에서 관측된 평균입니다. 평균은 표준 세터 모집단과 항목 세계(Brennan and Lockwood 1980)에 대한 평균으로 정의된 통과 표시의 추정치이다. G 이론은 다른 곳에서 설명되며, 독자들은 더 많은 정보를 위해 다음을 참조할 수 있다. 타바콜과 데닉 2012, 타바콜과 브레넌 2013.
The results of generalisability (G) theory can be fed back to standard setters to minimise sources of error associated with the pass mark across items and standard setters. The pass mark in a particular test is the observed mean across standard setters and items. The mean is an estimate of a passing mark defined as the mean for a population of standard setters and a universe of items (Brennan and Lockwood 1980). G-theory is described elsewhere, and readers may refer to the following for more information: Tavakol and Dennick 2012; Tavakol and Brennan 2013.

G 이론에서 분산 성분(V.C.)은 각 면facet에 부착된 오차를 측정하기 위해 계산된다. 이들은 G 연구에서 분석의 기본 단위이며 분산 분석(ANOVA)을 사용하여 추정됩니다. V.C.는 각 오류 원인과 관련된 분산을 알려줍니다. 표준 설정자가 경계선 그룹의 성능을 독립적으로 평가할 때(즉, 모든 표준 설정자가 모든 항목을 평가한다), 항목이 표준 설정자와 교차되는 설계에 대해 V.C.가 계산되므로 이 설계는 i × s(단일 면 설계)로 표시된다. 이 설계에 따르면 항목 V.C., 표준 세터 V.C. 및 표준 세터 V.C.에 의한 항목의 교호작용 등 세 가지 V.C.를 추정할 수 있습니다.

  • 항목 V.C.는 항목에 대한 평균 등급의 변동성을 나타냅니다.
  • 항목 표준 설정자 V.C.는 표준 설정자에 대한 평균 등급의 변동성을 보여줍니다.
  • 표준 설정자와 문항 사이 상호작용의 V.C.는 [설계와 무관한 체계적 오류(기타 측면)]를 보여준다.

In G-theory, variance components (V.C.s) are calculated to measure the error attached to each facet (in the language of G theory, e.g. standard setters and items). They are the basic unit of analysis in a G study and are estimated using analysis of variance (ANOVA). The V.C.s tell us the variance associated with each source of error. When standard-setters independently rate the borderline group's performance (i.e. all standard setters rate all items), V.C.s are calculated for a design in which items are crossed with standard setters, and hence this design is denoted i × s (a single facet design). According to this design, three V.C.s can be estimated, the item V.C., the standard setters V.C., and the interaction of item by the standard setters V.C.

  • Item V.C. shows the variability in mean ratings over items.
  • Item standard-setters V.C. shows the variability in mean ratings across standard setters.
  • The V.C. of the interaction of items by standard setters shows systematic error (other facets) unrelated to the design.

표 1은 R 코드를 사용하여 생성된 표준 세터와 교차되는 10개 항목의 분산 분석(ANOVA) 및 분산 성분을 보여줍니다. 표 1에서 볼 수 있듯이

  • 문항에 따른 평균 Angoff 등급(표준 세터당 합격 표시)의 변동성은 작다. 등급항목의 난이도가 변동된 정도를 실제 항목 난이도의 변동으로 설명한다는 점에 유의하여, 항목 변동item variance은 오류의 원인으로 간주하지 않는다(Clauser et al. 2014).
  • 가장 큰 오차 분산은 표준 세터에 기인하며, 이는 [표준 설정자에 걸친 평균 등급의 변동성이 높다]는 것을 시사합니다. 이것은 우리가 표준 설정자를 바꿔서 절차를 반복한다면 결과가 달라질 것이라는 것을 시사한다.
  • 여기서, 표준 설정자가 표준 설정자의 목표 인구와 항목의 세계로 일반화될 때 전체 [체계적 오류(37%)]를 간과해서는 안 된다.

Table 1 shows the analysis of variance (ANOVA) and the variance components of 10 items that are crossed with standard setters, generated using R codes. As we can see from Table 1,

  • there is a small variability in the mean Angoff ratings (the passing mark per standard setter) across items. Noting that the extent to which the variation in the difficulty of the rated items is explained by the variation in the actual item difficulty, item variance is not considered as a source of error (Clauser et al. 2014).
  • The largest error variance is attributed to the standard setters, suggesting high variability in the mean ratings across standard setters. This suggests the results would be different if we repeat the procedure with different standard setters.
  • Here, the overall systematic error (37%) should not be overlooked when the standard setters are generalised to standard setters’ target population and items’ universe.

 

표준 설정 방법이 [다른 동등한 표준 설정자]에 대해서 [다른 결과]를 초래하는 경우, 방법의 신뢰성과 신뢰성에 의문이 제기됩니다. 신뢰도는 주관적 판단에 따라 결정된 합격점수의 일관성을 말한다. 이 과정은 '표준 설정 프로세스의 외부external'에 존재하며, 합격 점수가 확립된 후에만 평가할 수 있다(Berk 1986). 추정된 V.C.는 표준 세터당 통과 마크의 신뢰성을 나타내는 G 계수를 추정하는 데에도 사용된다.

If a standard-setting method results in different results from other equivalent standard setters, the method's dependability and reliability are questioned. Reliability refers to the consistency of the passing score decided on the basis of subjective judgments. It is ‘external to the standard-setting process’ and can only be assessed after the pass mark has been established (Berk 1986). The estimated V.C.s also are used to estimate a G coefficient indicating the reliability of the passing marks per standard setters.

그림 6은 통과 마크의 잠재적 개선을 위한 추정 알파 및 파이 계수를 나타낸다.

  • i × s 설계에서 [알파 계수]는 상대 오차 분산을 포함하는 [크론바흐의 알파]와 동일합니다.
  • [파이 계수]는 절대 오차 분산을 포함하며, '신뢰성 지수'(Brennan 2010) 또는 [표준 설정자 간 일관성]이다.

Figure 6 presents estimated alpha and phi coefficients for potential improvement of the pass mark.

  • The alpha coefficient for an i × s design is equivalent to Cronbach's alpha involving relative error variance.
  • The phi coefficient involves absolute error variance, and it is ‘an index of dependability’ (Brennan 2010) or interstandard setter consistency.

여기서 12개의 합격선 설정자에 대한 신뢰도 지수는 고무적이지 않습니다(phi = 0.52). 낮은 신뢰도 지수 값은 통과 마크가 다른 표준 설정자에게 일반화될 수 없음을 시사하며, 따라서 Angoff 등급은 수정이 필요하다. 그림 6은 또한 표준 세터의 수가 증가함에 따라 신뢰도 지수가 증가하는 것을 보여준다.
Here, the index of dependability for 12 standard setters is not encouraging (phi = 0.52). The index value suggests the pass mark is not generalisable to other standard setters, and hence the Angoff ratings need revision. Figure 6 also shows as the number of standard setters increases, the index of dependability increases.

평가 정확도 향상을 위한 심사관 피드백
Feedback for examiners to improve rating accuracy

OSCE 및 승인 OSCE
OSCEs and admission OSCEs

이전 섹션에서는 학생 수행의 기준 또는 기준 수준에 대한 몇 가지 피드백 방법에 대해 논의했습니다. 표준은 학생점수의 분포를 [합격생]과 [불합격생]이라는 상호 배타적인 두 그룹으로 나눈다. 각 표준 설정자의 합격 표시와 시험에 대해 설정된 합격 표시를 비교한 요약은 시험 결과를 조정하는 데 중요한 역할을 하지만, 합격 표시를 결정하는 데 도움을 주지 않은 사람들과도 공유할 수 있다. 이는 표준성과standard performance는 정책 결정의 문제이며, 평가 제공자는 합격점수가 얼마나 높은지 낮은지를 결정하기 때문이다. 그 결정은 경계선 [학생의 성격, 평가의 성격, 학생 훈련 수준, 그리고 실무자에 대한 지역사회의 필요성] 등 몇 가지 요소를 기반으로 한다. 그럼에도 불구하고 평가 제공자는 표준 성과 결정을 정당화하기 위해 합리적이고 신뢰할 수 있는 합격점을 제공해야 한다(Kane 등 1999).
In previous sections, we discussed some feedback methods for the standard or criterion level of student performance. The standard splits student marks’ distribution into two mutually exclusive groups: passing students and failing students. A summary from the comparison of each standard setters’ passing mark and the established passing mark for the test can be shared with those that play a crucial role in moderating the exam results but who did not help determine the passing mark. This is because the standard performance a matter of policy decision, and assessment providers decide with regards to how high and low is the passing score. The decision is based on several factors, such as

  • the nature of the borderline student,
  • the nature of assessment,
  • student training level, and
  • community need for practitioners.

Nevertheless, assessment providers need to provide a reasonable and credible pass mark to justify their standard performance decision (Kane et al. 1999).

[OSCE]에서 [학생 중심 접근법]은 특정 과제를 수행할 때 학생의 지식, 기술 및 판단을 식별하기 위해 학생 성과를 관찰할 때 [표준 설정자의 주관적 해석]이 적용되기 때문에 더 적절하다(Kane 등 1999; Kramer 등 2003). OSCE에서는 [보더라인 그룹법]과 [보더라인 회귀법]을 모두 사용하지만, [보더라인 회귀법(BRM)]이 [중위수 보더라인]보다 더 많이 사용되는 것으로 보인다. 각 OSCE 스테이션 내에서 과제에 대한 학생의 성과는 평가되는 각 항목 또는 영역에 점수를 매겨 학생에게 총 점수를 생성한다. 표준 설정 또는 심리측정학 연구의 목적을 위해, 심사관은 [할당된 점수]와는 독립적으로 [글로벌 평가 척도]를 사용하여 학생 수행의 질에 대한 전반적인 주관적 해석을 평가한다.

In OSCEs, the student-centred approach is more appropriate as the subjective interpretation of standard setters is applied when observing student performance to identify students’ knowledge, skills, and judgments when a specific task is performed (Kane et al. 1999; Kramer et al. 2003). Both the borderline group method and the borderline regression methods are used in OSCEs, but it seems that the borderline regression method (BRM) is more popular than the median borderline. Within each OSCE station, the student’s performance on the task is rated by examiners who assign a mark to each of the items or domains being assessed, generating a total mark for the student. For standard-setting or psychometric study purposes, examiners rate an overall subjective interpretation of student performance’s quality using a global rating scale independent of the marks assigned.

일부 연구는 학생 수행 등급의 일반적인 오류에 대한 우려를 다룬다(Godfrey et al. 2015; Yeates et al. 2015; Fuller et al. 2017; Tavakol and Pinner 2018). 학생을 특정 범주(예: 실패, 경계선 실패, 경계선 통과, 양호 및 우수)에 올바르게 배치하는 것은 등급 정확도를 제안하고 평가 제공자에게 유용한 피드백 정보를 제공한다(Roch et al. 2012). 다음 섹션에서는 심사관에게 피드백 정보를 제공하기 위해 OSCE에서 심사관의 일부 오류를 시연한다. 

Some studies address concerns about common errors in student performance ratings (Godfrey et al. 2015; Yeates et al. 2015; Fuller et al. 2017; Tavakol and Pinner 2018). Placing students correctly into a specific category (e.g. fail, borderline fail, borderline pass, good and excellent) suggests rating accuracy and provides useful feedback information for assessment providers (Roch et al. 2012). In the following sections, we demonstrate some of the examiners’ errors in OSCEs in order to provide feedback information for examiners.

체크리스트 등급과 글로벌 등급 간의 불일치
Discrepancy between checklist ratings and global ratings

체크리스트의 도메인 수준(항목 수준) 등급과 전체 글로벌 척도 등급은 학생의 성과와 동일한 정보를 표시해야 합니다. 항목 등급이 높은 경우 전체 글로벌 척도 등급도 높아야 합니다. 검사자 체크리스트 점수와 글로벌 등급 간의 불일치는 경계선에 있는 학생들에게 영향을 줄 수 있고 측정에 구성 무관한 분산을 추가할 수 있기 때문에 이 대응은 필수적이다.

The domain-level (item level) ratings from the checklist and overall global scale ratings should indicate the same information the student’s performance. If item ratings are high, overall global scale rating should also be high. This correspondence is essential as the discrepancy between examiner checklist scores and the global ratings may affect the borderline students and add construct-irrelevant variance to measurement.

그림 7은 체크리스트 점수와 글로벌 등급 사이의 연관성을 보여준다. 점선은 관심 스테이션에 대한 통과 표시를 나타낸다. 그림에서 알 수 있듯이, 일부 학생들의 체크리스트 점수와 글로벌 등급 사이에는 일치하지 않아 검사자 정렬이 불량하다는 것을 보여준다. 도표를 살펴보면, 일부 학생들은 체크리스트를 기준으로 항목이나 수행 영역에서 좋은 점수를 받지만, 경계선 학생으로 분류된다. 가장 중요한 것은, 체크리스트 총점수가 합격점수보다 높은 몇몇 학생들은 불합격으로 분류된다는 것이다. 추가 검사를 통해 옵션 E(실패)가 거의 사용되지 않기 때문에 사용된 등급 척도 범주의 기능에 결함이 있음을 알 수 있습니다. 각 옵션(A~E)에 대해 최소 10개의 관측치가 필요합니다. 따라서 이는 대부분의 학생들이 이 역을 통과할 것으로 예상되지 않는다고 가정할 때 'E'가 신뢰할 수 없는 옵션임을 시사할 수 있다(Tavakol 및 Pinner 2019).

Figure 7 presents the association between the checklist scores and global ratings; the dashed lines represent the pass mark for the station of interest. As we can see from the Figure, there is no correspondence between the checklist scores and global ratings for some students, demonstrating poor examiner alignment. On inspecting the Figure, some students receive good scores on items or performance domains based on the checklist, but they are classified as borderline students. Most important, some students who receive checklist total scores greater than pass mark are categorised as fail students. A further inspection shows that the functioning of the rating scale category used is flawed because option E (Fail) is rarely used. At least ten observations are required for each option. Therefore, this may suggest ‘E’ is an implausible option (Tavakol and Pinner 2019) assuming most students are not expected to pass this station.

평가자가 성과 등급에 미치는 영향
Examiner effect on performance ratings

평가 및 측정 문헌에서는 평가자가 성과 등급에 미치는 영향에 많은 관심이 쏠리고 있다. 이론적으로 [세 가지 요소]가 등급 정확도에 영향을 미칠 수 있다. 

  • 학생 성과,
  • 학생에 대한 시험관의 태도 또는 관찰,
  • 의도된 성과에 대한 시험관의 관찰 회상

[고전적 검사 이론]은 각 구성 요소에 대한 성능 등급의 결과를 예측한다. 예를 들어, 학생 수행의 태도는 다음의 합이다

  • 학생의 진정한 수행(오류 없는 평가),
  • 수행의 태도 편향,
  • 무작위 오류.

따라서 등급의 품질과 등급 효과를 평가하고 개선하고자 할 때 이러한 구성요소를 고려할 필요가 있습니다.

In the assessment and measurement literature, much attention has been paid to examiners’ effect on performance ratings. Theoretically, three components can influence the rating accuracy:

  • student performance,
  • attitudes or observation of the examiner towards the student,
  • the recall of the examiner’s observation of the intended performance (Landy and Farr 1980).

Classical test theory predicts the outcome of the performance rating for each component. For example, the attitude of student performance is the sum of

  • the student’s true performance (error-free rating),
  • the bias of attitude of the performance, and
  • random error.

Therefore, when we want to evaluate and improve the quality of ratings and the rater effect, these components need to be considered.

Cronbach(1990)는 평가자가 평가 과정에서 도입할 수 있는 가장 심각한 오류, 즉 '매파적'과 '비둘기적' 효과(Cronbach 1990)로 간주했다. 심사관이 척도에서 특정 위치를 선호하는 경향은 두 가지 부정적인 결과를 낳는다.

  • 첫째, 이것은 의심스러운 학생 평점으로 이어진다. 실제로, 높은 등급 또는 낮은 등급은 평가된 학생의 실제 성적보다는 심사관의 태도를 반영할 수 있다(Miller et al. 2013).
  • 둘째, 중심 경향 오차(예: 학생들을 평균으로 배치하는 경향이 있는 시험관)는 '척도의 중심에 등급 쏠림'를 초래한다. 따라서, 학생 평점의 범위는 감소합니다. 범위가 줄어들면 학생 등급ratings의 타당성과 신뢰성이 떨어진다.

Cronbach (1990) considered the rater effect as the most severe error that a rater can introduce in a rating process, i.e. the ‘hawkish’ and ‘dovish’ effect (Cronbach 1990). The tendency of an examiner to favour a specific position on the scale has two negative consequences.

  • First, this leads to questionable student ratings. Indeed, a high or low rating may reflect the examiner’s attitude rather than the actual performance of the student rated (Miller et al. 2013).
  • Second, the central tendency error (e.g. examiners who tend to place students at average) results in the ‘bunching of ratings in the centre of the scale’. Therefore, the range of student ratings decreases. Reducing this range leads to a decrease in the validity and reliability of student ratings.

[행동 관찰 정확도에 대한 검사자의 성과 평가 효과]의 중요성을 간과해서는 안 된다. 보다 구체적으로, 검사자 성과 측정의 주요 목적이 성능 등급 정확도 향상이라는 점을 감안할 때, 각 검사자마다 각 스테이션 내의 성과에 대한 피드백을 제공할 필요가 있다. 피드백을 제공하기 위한 몇 가지 접근법이 있다. 우리의 경험에 따르면, [검사자 오류]보다는 [등급 정확도 향상에 초점을 맞춘 간단한 방법(예: 상자 그림 또는 막대 그림)]을 사용하는 것이 검사자의 더 많은 관심을 받는다. 그림 8은 상자 그림을 사용한 검사자 수행의 한 예를 나타냅니다. 다른 예는 다른 곳에서 설명되었다(Tavakol 및 Pinner 2018).
The importance of the performance rating effect by examiners on behavioural observation accuracy should not be overlooked. More specifically, given that the primary purpose of measuring examiner performance is to improve performance rating accuracy, it is necessary to give each examiner feedback on their performance within each station. There are several approaches to providing feedback. Based on our experience, using simple methods (e.g. boxplots or bar plots) focusing on improving rating accuracy, rather than examiner errors, gets more attention from examiners. Figure 8 represents one example of examiner performances using box plots. Other examples have been described elsewhere (Tavakol and Pinner 2018).

 

그림 8은 가상 스테이션 내의 검사자 성능을 나타내며 각 스테이션에 대해 제공될 수 있다. 그림에서 알 수 있듯이, 8명의 검사관(검사관 코드 제공)이 특정 관측소(x축)에서 학생들을 평가했습니다. 각각의 스테이션 내에서 시험관들은 일관되게 점수를 매겼지만, 일부 시험관들은 다른 시험관들에 비해 학생들의 성적을 불규칙적으로 평가한 것으로 보인다. 그림을 검토하면 시험관 4에 의해 등급이 매겨진 학생들의 경우, 거의 모두가 이 스테이션에 대해 설정된 합격 점수(빨간색 점선)를 기준으로 해당 역에 불합격되었음을 알 수 있다. 이것은 '매파적'이거나 엄격한 심사관을 나타낼 수 있다. 그러나 심사관 4는 '비둘기파' 또는 관대한 심사관을 나타낸다. 시험관 7은 시험관 3보다 훨씬 더 엄격하다. 이는 평가 제공자가 학생들의 점수를 공정하게 하기 위해 이러한 시험관의 등급을 조정(중간)한다는 것을 나타낼 수 있다. 특히 상자 그림 구조를 그림과 함께 요약하면 검사자가 상자 그림을 더 쉽게 해석할 수 있습니다.

Figure 8 represents examiner performance within a hypothetical station and could be provided for each station. As we can see from the Figure, eight examiners (examiner codes are provided) rated students in a particular station (x-axis). Within this station, examiners rated consistently, yet some examiners seem to have irregularly rated student performance compared to other examiners. If we review the Figure, we can see that for the students rated by examiner four, almost all failed the station based on the passing score established for this station (the red dashed line). This may represent a ‘hawkish’ or stringent examiner. However, examiner 4 represents a ‘dovish’ or lenient examiner. Examiner 7 is even more stringent than examiner 3. This may indicate that assessment providers adjust (moderate) the ratings of these examiners in order to make the students’ marks fair. Of note, including a summary of the box plots’ structure with the Figure may make it easier for examiners to interpret the box plots.

성능 피드백을 위한 막대 차트
Bar chart for performance feedback

간단한 피드백 접근 방식은 막대 차트를 사용하여 검사자의 성과를 입증한다. 이 접근법에서 검사자는 [표준 점수] 또는 [z 점수]라는 통계를 사용하여 서로 비교됩니다. [z 점수]는 점수가 [특정 분포의 평균]에서 얼마나 많은 표준 편차만큼 떨어져 있는지를 나타낸다. 시험관의 점수를 z 점수로 환산하면, 우리는 그것들을 서로 비교하고 어떤 시험관이 모든 관측소에서 '비둘기' 또는 '매파'로 평가했는지 볼 수 있다. z 점수가 높을수록 다른 사람에 비해 극단적인 점수를 받는다. 따라서 0.5점이라는 평균에 가까운 z 점수는 평가자가 특별히 '비둘기파' 또는 '매파'가 아니었음을 나타냅니다.

  • 표준 점수가 전체 분포에서 -2라고 가정합니다. 이 경우 이는 검사자가 평균보다 -2 표준 편차 낮은 점수를 주었음을 나타내며, 평균적인 검사자에 비해 가혹하거나 '매파적'일 가능성이 높습니다.
  • 표준 점수가 2보다 크면 심사관이 관대하거나 '비둘기적'임을 나타냅니다.

A simple feedback approach employs bar charts to demonstrate examiner performance. In this approach, examiners are compared with each other using a statistic called a standard score or z score. The z score indicates how many standard deviations the score is from the mean of a particular distribution. If examiners’ scores are converted to z score, we can compare them with each other and see which examiner rated ‘dovish’ or ‘hawkish’ across all stations. The higher the z score, the more extreme the score relative to others. Therefore, a z score of 0.5, being close to the mean, indicates that the assessor was not particularly ‘dovish’ or ‘hawkish’.

  • Suppose a standard score is −2 on the whole distribution. In that case, this indicates the examiner scored −2 standard deviations below the mean and is likely to be harsh or ‘hawkish’ compared to the average examiner.
  • If a standard score is larger than 2 this shows the examiner is lenient or ‘dovish’.

2보다 크거나 -2보다 작은 표준 점수를 임계값으로 설정하는 것은 임의적인 접근법입니다. 다만, 점수가 정규 분포일 때 표준점수가 +3 이상 또는 -3 이하인 경우는 예외적이라는 점에 유의해야 한다. 우리가 시험관의 점수를 z 점수로 환산하면, 우리는 z 점수에 대한 막대 차트를 그릴 수 있다. 그림 9와 같이, 시험관 10의 점수는 -2 z 점수 아래에 나타나지만, +2 z 점수 위에는 나타난 평가자는 없다. 평균보다 두 표준 편차 높거나 낮은 점수를 임계값으로 사용하면 학생들의 점수에 '비둘기 또는 매' 효과가 거의 없을 수 있습니다. z 점수에 대한 자세한 내용은 다른 곳에서 참조할 수 있습니다(Tavakol 및 Pinner 2018).

Setting a standard score larger than 2 or less than −2 as the threshold is an arbitrary approach. However, it should be noted, when the scores are normally distributed, it is exceptional to get a standard score greater than +3 or less than −3. When we convert the examiners’ scores to z scores, we can draw bar charts for the z scores. As shown in Figure 9, examiner 10’s scores appear below the −2 z score, but no scores appeared above the +2 z score. Using two standard deviations above or below the mean as the threshold may suggest little ‘dove or hawk’ effect on students’ scores. For more information on z scores, readers can refer elsewhere (Tavakol and Pinner 2018).

변수 지도
Variable map

MFRM(Many Facet Rasch Model)은 불규칙한 검사자를 탐지하는 고급 심리 측정 방법이다. 모델의 복잡성 때문에, 이러한 피드백에 대한 접근 방식은 라쉬 모델이 추가 설명을 위해 제공되지 않는 한, 특히 수학 교육을 받지 않은 시험관들에 의해 잘 소화되지 않을 수 있다. 라쉬 모델과 MFRM 접근법은 다른 곳에서 설명된다(Tavakol 및 Dennick 2012; Tavakol 및 Pinner 2019). 

Many Facet Rasch Model (MFRM) is an advanced psychometric method to detect erratic examiners. Due to the model’s complexities, this approach to feedback may not be well digested by examiners, especially those who have not been schooled in math, unless the Rasch model is offered for further explanation. The Rasch model and the MFRM approach are described elsewhere (Tavakol and Dennick 2012; Tavakol and Pinner 2019).

그림 8은 세 가지 측면(학생, 스테이션 및 검사자)이 있는 가상의 OSCE 시험에 대한 변수 맵을 보여준다.

  • 동일한 로짓 척도(첫 번째 열, 'Measr'라는 제목)를 기준으로 [학생들의 능력, 스테이션 난이도 및 심사관의 엄격도 측정치]를 제시하여 모든 측면을 공통 척도로 비교할 수 있다.
  • 두 번째 열('학생')은 학생의 능력을 나타냅니다. 이 열에서 각 점은 한 학생을 나타내며, 두 명인 경우 학생은 별표(*)로 표시됩니다.
  • 세 번째 열에는 스테이션 facet이 포함됩니다. 스테이션들은 위에서 가장 어려운 것부터 아래에서 가장 덜 어려운 것까지 분포되어 있다.
  • 네 번째 열은 [검사자 facet(숫자로 암호화됨)]을 나타냅니다. 엄격한 심사관은 열의 맨 위에 배치되고 관대한 심사관은 열의 맨 아래에 배치됩니다.
  • 다섯 번째 열은 '총 점수 달성'을 나타냅니다. 본 AMEE 가이드의 목적상, 우리는 검사자의 측면에만 초점을 맞추고 있습니다.

Figure 8 shows the variable map for a hypothetical OSCE exam with three facets (student, station and examiner).

  • It presents the spread of students’ ability, station difficulties and examiner severity measures on the same logit scale (the first column, titled ‘Measr’), so all facets can be compared with each other on a common scale.
  • The second column (titled ‘student’) presents student ability. In this column, each dot represents one student, with 2 students represented by an asterisk (*).
  • The third column contains the station facet. The stations are distributed from most difficult at the top to the least difficult at the bottom.
  • The fourth column shows the examiner facet (encrypted as numbers). Stringent examiners are located at the top of the column, and lenient examiners locate at the bottom of the column.
  • The fifth column represents ‘total score achieved’. For the purpose of this AMEE Guide, we only focus on the examiner facet.

그림 10의 4열은 MFRM을 기반으로 한 검사자의 엄격성과 관용을 보여준다. 검사관은 상단의 엄격함부터 하단의 관대함 순으로 정렬되며, 변수 맵의 상단에는 '매파적' 검사관이 배치된다. 반대로 '비둘기' 검사자는 열의 지도 하단에 있습니다.

Figure 10, column 4, shows the examiner stringency and leniency based on the MFRM. Examiners are ordered in order from stringency at the top to leniency at the bottom, with ‘hawkish’ examiners are located at the top of the variable map. In contrast, ‘dovish’ examiners are located at the bottom of the map in the column.

그림 10에서 볼 수 있듯이 Examiner 엄격도 로짓은 -0.87 로짓에서 +1.60 로짓까지 산재해 있습니다. 검사자 10은 1.60 로짓의 측정값인 더 엄격한 것으로 변수 지도에 나타납니다. 그러나 시험관 12명을 제외하고 모두 비둘기파였던 다른 시험관들에 비해, 시험관 10명은 [이번 OSCE 시험]에서 -0.87의 로짓으로 가장 비둘기파 시험관이다. MFRM 접근 방식은 위에서 논의된 불규칙한 검사자의 유형(예: 후광 오류 및 중심 경향 오류)을 밝힐 수 있다는 점을 언급하는 것이 주목할 만하다.
As we can see from Figure 10, the Examiner severity logits are scattered, ranging from −0.87 logits to +1.60 logits. Examiner 10 appears on the variable map as more severe, a measure of 1.60 logits. However, compared to other examiners who have all been dovish except examiner 12, examiner 10 is the most dovish examiner, with −0.87 logits, in this OSCE exam. It is noteworthy to mention the MFRM approach can reveal the types of erratic examiners discussed above (e.g. halo error and central tendency error).

공정한 평균을 사용하여 피드백 제공
Providing feedback using fair averages

만약 우리가 두 명의 시험관, 한 명은 비둘기파이고 다른 한 명은 매파적인 시험관에게 평가받는 것을 학생들이 꺼리는 것은 의심의 여지가 없다. 그러나, 두 심사관 모두 불공정한 점수를 낼 수 있다. 학생들의 점수를 공평하게 하기 위해, 우리는 학생들의 관찰된 점수를 조절하거나 조정합니다. MFRM의 언어로는 중간/조정된 마크를 '공정 평균fair average'이라고 한다. 공정한 평균은 관찰된 표시가 검사자의 관용/긴밀도에 기초하여 조정될 때 발생한다. 두 학생이 심장병 스테이션에서 두 명의 다른 검사관으로부터 동일한 점수를 받는다고 가정해보자. 첫 번째 학생은 비둘기파 시험관에 의해 등급이 매겨졌지만 두 번째 학생은 매파 시험관에 의해 등급이 매겨졌다. 이 두 학생의 점수를 공정하게 비교하기 위해서는 시험관의 관용/엄밀함을 기준으로 이 두 학생을 대상으로 평가된 점수를 조정할 필요가 있다(Linacre 2020). 그렇지 않으면, 이 두 학생의 점수는 그들의 성적과 관련하여 불공평하게 평가될 것이다.
If we consider two examiners, one dovish and the other hawkish, there is no doubt that students are reluctant to be rated by the hawkish examiner. However, both examiners may produce unfair marks. In order to make the students’ marks fair, we moderate or adjust their observed marks. In the language of MFRM, moderated/adjusted marks are called ‘fair average’. The fair average occurs when the observed marks are moderated based on the examiner leniency/stringency. Consider two students receive an equal mark from two different examiners in the cardiology station. The first student was rated by a dovish examiner, but the second student was rated by a hawkish examiner. In order to fairly compare the scores of these two students, we need to adjust the scores assessed for these two students based on the examiner’s leniency/stringency (Linacre 2020). Otherwise, the scores of these two students will be unfairly evaluated relative to their performance.

[공정 평균]의 결과는 심사관의 심각도 분포를 더 잘 이해하기 위해 심사관과 공유할 수 있다. 그림 11은 심사관의 개별 공정 평균에 대한 피드백의 한 가지 예를 제공한다. 적당한 평균 점수는 관용에서 엄격함으로 배열된다. x축(Examiner)에서 문자는 검사자 코드입니다. 따라서, [공정 평균]의 결과는 서로를 식별할 수 없는 상태에서 학생들을 평가한 모든 시험관들에게 제시될 수 있다. 예를 들어, 심사관 J는 그 척도에서 공정 평균 18.50에 가까운 결과를 가져온 판단을 제공하였다. 매파적 수험생인 다른 수험생과 비교해 가장 낮은 점수를 줬다고 판단할 수 있다. L 심사관은 그 척도에서 공정 평균이 거의 32에 달하는 판단을 내렸다. 비둘기파 시험관이 될 가능성이 있는 다른 시험관에 비해 학생들에게 가장 높은 점수를 줬다고 심사관은 판단할 수 있다.

The results of fair averages can be shared with examiners to better understand the examiner severity distribution. Figure 11 provides one example of feedback about examiners’ individual fair averages of the marks. Fair average scores are arranged from leniency to stringency. In the x-axis (Examiner), the letters are the examiner codes. Therefore, the results of fair averages can be presented to all examiners who rated the students without them being able to identify each other. For example, examiner J provided judgments that resulted in a fair average of nearly 18.50 on the scale. The examiner can judge that they gave the lowest score to the students compared to other examiners, a possible hawkish examiner. Examiner L provided judgments that resulted in a fair average of nearly 32 on the scale. The examiner can judge that they gave the highest score to the students compared to other examiners, a possible dovish examiner.

 

로그를 익숙한 점수로 전송하여 검사자 관련 변형을 피드백합니다.
Transfer logits to a familiar score to feedback examiner-related variation

교사들이 로짓과 변수 맵을 환영하지 않을 경우, 엑셀을 사용하는 일부 간단한 조작은 시험관에게 익숙한 숫자(0과 100 사이)로 척도를 바꿀 수 있다. 따라서 최소 심각도는 0이고 최대 심각도는 100입니다. 이를 위해 래쉬 검사기 성능 및 래쉬 표준 오차 측정이 계산됩니다. 아래 단계를 통해 Rasch 검사자 성능을 0-100 척도로 변환할 수 있습니다(Eckes 2015).

  • Rasch 검사기 성능, S=(최대 로짓-분 로짓)/100 사용,
  • SE=(각 검사자 * S에 대한 S.E.)
  • M = 0-(분 로짓-S) 및
  • Excel에서 0-100 스케일을 얻으려면 , = Round(M+(Rasch 측정 성능 + S), 0.

If teachers do not welcome logits and the variable map, some simple operations using Excel can turn scales into numbers (for example, between 0 and 100) that are familiar to examiners. Therefore, the minimum severity measure is zero, and the maximum severity measure is 100. To achieve this, the Rasch examiner performance and the Rasch standard error measure are calculated. By the following steps below, we could convert the Rasch examiner performance to the 0–100 scale (Eckes 2015).

  1. Using the Rasch examiner performance; S= (max logits- min logits)/100,
  2. SE=(S.E. for each examiner * S),
  3. M= 0-(min logits-S), and
  4. To get the 0-100 scale in Excel; =Round(M+(the Rasch measure performance + S),0).

예를 들어, 검사자 X의 측정값이 S인 0.16이라고 가정합니다.E는 0.26으로, 그들의 새로운 점수는 새로운 척도에서 52점이다. 우리는 성과 변동성 심사관을 위한 새로운 척도를 계산한 다음 이 점수를 주어 서로 비교할 수 있다. 구간 척도를 순서 척도(예: 비둘기 척도, 평균 척도 및 매 척도)로 변환할 수도 있습니다. 또한 엄격하고 관대한 검사자의 수를 계산할 수 있습니다.

For example, suppose the examiner X has a measure of 0.16 with an S.E of 0.26; their new score is 52 points on the new scale. We can calculate the new scale for performance variability examiners and then give them these scores to compare themselves with each other. You could also convert the interval scale to the ordinal scale (e.g. dovish, average and hawkish). This also allows you to calculate the number of stringent and lenient examiners.

 


Med Teach. 2022 Jun;44(6):582-595. doi: 10.1080/0142159X.2021.1993164. Epub 2021 Nov 2.

Feedback to support examiners' understanding of the standard-setting process and the performance of students: AMEE Guide No. 145

Affiliations collapse

Affiliations

1Medical Education Centre, School of Medicine, University of Nottingham, Nottingham, UK.

2School of Education, Virginia Commonwealth University, Richmond, VA, USA.

PMID: 34726546

DOI: 10.1080/0142159X.2021.1993164

Abstract

The ratings that judges or examiners use for determining pass marks and students' performance on OSCEs serve a number of essential functions in medical education assessment, and their validity is a pivotal issue. However, some types of errors often occur in ratings that require special efforts to minimise. Rater characteristics (e.g. generosity error, severity error, central tendency error or halo error) may present a source of performance irrelevant variance. Prior literature shows the fundamental problems in student performance measurement attached to judges' or examiners' errors. It also indicates that the control of such errors supports a robust and credible pass mark and thus, accurate student marks. Therefore, for a standard-setter who identifies the pass mark and an examiner who rates student performance in OSCEs, proper, user-friendly feedback on their standard-setting and ratings is essential for reducing bias. This feedback provides useful avenues for understanding why performance ratings may be irregular and how to improve the quality of ratings. This AMEE Guide discusses various methods of feedback to support examiners' understanding of the performance of students and the standard-setting process with an effort to make inferences from assessments fair, valid and reliable.

Keywords: Feedback; assessment; standard setting.

 

교육적 평가의 타당화: 시뮬레이션 등을 위한 프라이머(Adv Simul (Lond). 2016)
Validation of educational assessments: a primer for simulation and beyond
David A. Cook1,2,3* and Rose Hatala4

 

 

 

좋은 평가가 중요하며 시뮬레이션이 도움이 될 수 있습니다.
Good assessment is important; simulation can help

교육자, 관리자, 연구원, 정책 입안자, 심지어 일반 대중들도 건강 전문가 평가의 중요성을 인식하고 있습니다. 역량 기반 교육, 이정표 및 숙달 학습과 같은 트렌드 주제는 성과에 대한 필수 정보를 제공하기 위해 정확하고 시기 적절하며 의미 있는 평가에 달려 있습니다. 전문 역량 평가는 교육을 넘어 임상 실습으로 점차 확대되며, 초기 및 지속적인 전문 면허 및 인증 요건에 대한 지속적인 논의가 이루어진다. 일선 교육자와 교육 연구자는 임상 및 비임상 환경에서 의료 전문가의 방어 가능한 평가를 요구합니다. 실제로, 좋은 평가에 대한 필요성은 그 어느 때보다도 컸으며 앞으로도 계속 증가할 것입니다.
Educators, administrators, researchers, policymakers, and even the lay public recognize the importance of assessing health professionals. Trending topics such as competency-based education, milestones, and mastery learning hinge on accurate, timely, and meaningful assessment to provide essential information about performance. Assessment of professional competence increasingly extends beyond training into clinical practice, with ongoing debates regarding the requirements for initial and ongoing professional licensure and certification. Front-line educators and education researchers require defensible assessments of health professionals in clinical and nonclinical settings. Indeed, the need for good assessments has never been greater and will most likely continue to grow.

직장 기반 평가가 필수적이지만 [1–3] 시뮬레이션은 안전한 환경에서 특정 주제와 기술을 목표로 삼을 수 있기 때문에 보건 전문직 평가에서 중요한 역할을 하며 앞으로도 그럴 것이다 [4–6]. 시뮬레이션에서 평가 조건은 학습자 간에 표준화될 수 있으며 질병, 임상 상황 및 합병증의 스펙트럼을 조작하여, 예를 들어 [흔하지만 중요한 작업, 자주 보이지 않는 조건, 환자를 위험에 빠뜨릴 수 있는 활동 또는 특정 감정 반응을 유발하는 상황]에 초점을 맞출 수 있다[7, 8]. 따라서 시뮬레이션 기반 평가가 점점 일반화되고 있는 것은 놀랄 일이 아니다. 2013년에 발표된 리뷰에서는 시뮬레이션 기반 평가를 평가하는 400개 이상의 연구가 확인되었으며[9] 그 수는 확실히 증가했다. 그러나 동일한 검토에서는 이러한 평가를 뒷받침하는 증거와 그러한 증거를 수집하기 위해 설계된 연구(즉, 검증 연구)에서 심각하고 빈번한 결함을 확인했다. 좋은 시뮬레이션 기반 평가의 필요성과 현재 검증 노력의 과정과 산물의 결함 사이의 차이는 검증 과학의 현재 상태에 대한 인식을 높일 필요가 있음을 시사한다.
Although workplace-based assessment is essential [13], simulation does and will continue to play a vital role in health professions assessment, inasmuch as it permits the targeting of specific topics and skills in a safe environment [46]. The conditions of assessment can be standardized across learners, and the spectrum of disease, clinical contexts, and comorbidities can be manipulated to focus on, for example, common yet critical tasks, infrequently seen conditions, activities that might put patients at risk, or situations that provoke specific emotional responses [7, 8]. Thus, it comes as no surprise that simulation-based assessment is increasingly common. A review published in 2013 identified over 400 studies evaluating simulation-based assessments [9], and that number has surely grown. However, that same review identified serious and frequent shortcomings in the evidence supporting these assessments, and in the research studies designed to collect such evidence (i.e., validation studies). The gap between the need for good simulation-based assessment and the deficiencies in the process and product of current validation efforts suggests the need for increased awareness of the current state of the science of validation.

이 기사의 목적은 교육자와 교육 연구자를 위한 평가 검증에 대한 입문서를 제공하는 것입니다. 우리는 건강 전문가에 대한 시뮬레이션 기반 평가의 맥락에 중점을 두지만, 이 원칙은 다른 평가 접근법과 주제에도 광범위하게 적용된다고 믿는다.
The purpose of this article is to provide a primer on assessment validation for educators and education researchers. We focus on the context of simulation-based assessment of health professionals but believe the principles apply broadly to other assessment approaches and topics.

타당화는 프로세스입니다.
Validation is a process

[타당화]는 [평가 결과에 기초하여 해석, 사용 및 결정의 적절성을 평가하기 위해 타당성 증거를 수집하는 과정]을 의미한다[10]. 이 정의는 몇 가지 중요한 점을 강조합니다.
Validation refers to the process of collecting validity evidence to evaluate the appropriateness of the interpretations, uses, and decisions based on assessment results [10]. This definition highlights several important points. 

첫째, 검증은 엔드포인트가 아닌 프로세스입니다. 평가에 "타당화됨"이라는 라벨을 붙이는 것은 타당화 검사 프로세스가 적용되었다는 것, 즉 증거가 수집되었다는 것만을 의미하며, 다음의 것들은 알려주지 않는다. 

  • 어떤 프로세스가 사용되었는가,
  • 증거의 방향 또는 크기는 어떠한가(즉, 유리한가, 불리한가, 어느 정도까지 사용되었는가?), 
  • 어떤 gap이 남아 있는가, 또는 
  • 어떤 맥락(집단, 학습 목표, 교육적 설정)에 대한 증거.

First, validation is a process not an endpoint. Labeling an assessment as “validated” means only that the validation process has been applied—i.e., that evidence has been collected. It does not tell us

  • what process was used,
  • the direction or magnitude of the evidence (i.e., was it favorable or unfavorable and to what degree?),
  • what gaps remain, or
  • for what context (learner group, learning objectives, educational setting) the evidence is relevant.

둘째, 타당화는 다음 절에서 논의한 바와 같이 타당성 증거 수집을 포함한다.
Second, validation involves the collection of validity evidence, as we discuss in a following section.

셋째, 타당화와 타당성은 궁극적으로 (이러한 수치 점수 또는 서술적 의견[11]과 같은) 평가 데이터의 특정 해석 또는 사용을 의미하며, 이 해석에 근거한 결정을 의미한다. 우리는 임상 의학에서의 진단 테스트와 유추를 통해 이 점을 설명하는 것이 도움이 된다는 것을 발견했다[12]. 임상시험은 (a) 시험이 결정에 영향을 미치고 (b) 이러한 결정이 조치 또는 환자 결과에 의미 있는 변화를 가져오는 정도까지만 유용하다. 따라서, 의사들은 종종 "만약 그것이 환자 관리에 변화를 주지 않는다면 검사를 지시하지 말라"고 가르친다. 예를 들어, 전립선특이항원(PSA) 검사는 신뢰성이 높고 전립선암과 강하게 연관돼 있다. 그러나 전립선암 검진은 암이 없을 때 상승하는 경우가 많고, 검사가 불필요한 전립선 생체검사와 환자의 불안감을 유발하며, 종종 발견되는 암을 치료해도 임상 결과가 개선되지 않기 때문에 더 이상 널리 권장되지 않는다. (즉, 치료가 필요하지 않음). 즉, 많은 환자에서 부정적인/유해한 결과가 시험(검진)의 유익한 결과보다 크다[13–15].

Third, validation and validity ultimately refer to a specific interpretation or use of assessment data, be these numeric scores or narrative comments [11], and to the decisions grounded in this interpretation. We find it helpful to illustrate this point through analogy with diagnostic tests in clinical medicine [12]. A clinical test is only useful to the degree that (a) the test influences decisions, and (b) these decisions lead to meaningful changes in action or patient outcomes. Hence, physicians are often taught, “Don’t order the test if it won’t change patient management.” For example, the prostate-specific antigen (PSA) test has high reliability and is strongly associated with prostate cancer. However, this test is no longer widely recommended in screening for prostate cancer because it is frequently elevated when no cancer is present, because testing leads to unnecessary prostate biopsies and patient anxiety, and because treating cancers that are found often does not improve clinical outcomes (i.e., treatment is not needed). In other words, the negative/harmful consequences outweigh the beneficial consequences of testing (screening) in many patients [1315]. 

그러나 PSA 검사는 전립선암을 진단하고 치료한 후에도 여전히 질병의 지표로 유용하다. 이 예를 교육 테스트(평가)와 의사 결정의 중요성에 반영하면 이러하다.

  • (1) 만약 그것이 관리management를 바꾸지 않는다면, 시험을 하지 말아야 한다. 
  • (2) 하나의 목표 또는 설정에 유용한 시험은 다른 맥락에서 덜 유용할 수 있다. 
  • (3) 시험의 전반적인 유용성을 결정할 때 시험의 장기적인 결과와 다운스트림 결과를 고려해야 한다.

However, PSA testing is still useful as a marker of disease once prostate cancer has been diagnosed and treated. Reflecting this example back to educational tests (assessments) and the importance of decisions:

  • (1) if it will not change management the test should not be done,
  • (2) a test that is useful for one objective or setting may be less useful in another context, and
  • (3) the long-term and downstream consequences of testing must be considered in determining the overall usefulness of the test.

평가 타당화가 중요한 이유는 무엇입니까?
Why is assessment validation important?

교육적 평가에 대한 엄격한 타당화는 최소한 두 가지 이유로 매우 중요하다.
Rigorous validation of educational assessments is critically important for at least two reasons. 

첫째, 평가를 사용하는 사람들은 결과를 신뢰할 수 있어야 한다. 유효성 확인은 신뢰도(유효성)에 관한 간단한 예스/노 답변을 제공하지 않습니다. 오히려, 신뢰도나 타당성의 판단은 의도된 적용과 맥락에 따라 달라지며 일반적으로 정도의 문제이다. 타당화는 그러한 [판단]과 [남아있는 격차gaps]에 대한 비판적 평가를 할 수 있는 증거를 제공한다.
First, those using an assessment must be able to trust the results. Validation does not give a simple yes/no answer regarding trustworthiness (validity); rather, a judgment of trustworthiness or validity depends on the intended application and context and is typically a matter of degree. Validation provides the evidence to make such judgments and a critical appraisal of remaining gaps.

둘째, 새로운 객관식 문제, 척도 항목 또는 시험장이 사실상의 새로운 도구를 만들기 때문에 평가 도구, 도구 및 활동의 수는 본질적으로 [무한]하다. 그러나 주어진 교육자에게 평가가 필요한 관련 과제와 구성은 [유한]하다. 따라서 각 교육자는 자신의 즉각적인 요구에 가장 잘 맞는 평가 솔루션을 식별하기 위해 무수한 가능성을 분류하고 선별할 수 있는 정보가 필요합니다. 잠재적 해결책으로는 기존 평가도구 선택, 기존 평가도구 적응, 여러 평가도구의 요소 결합 또는 새로운 평가도구를 새로 생성 등이 있습니다 [16]. 교육자는 점수의 신뢰도뿐만 아니라 시험 시행과 관리 과정에서 발생하는 비용, 수용성, 타당성 등 물류 및 실무적 이슈에 대한 정보가 필요하다.
Second, the number of assessment instruments, tools, and activities is essentially infinite, since each new multiple-choice question, scale item, or exam station creates a de facto new instrument. Yet, for a given educator, the relevant tasks and constructs in need of assessment are finite. Each educator thus needs information to sort and sift among the myriad possibilities to identify the assessment solution that best meets his or her immediate needs. Potential solutions include selecting an existing instrument, adapting an existing instrument, combining elements of several instruments, or creating a novel instrument from scratch [16]. Educators need information regarding not only the trustworthiness of scores, but also the logistics and practical issues such as cost, acceptability, and feasibility that arise during test implementation and administration.

또한 시뮬레이션 기반 평가는 그 정의상 "의미 있는meaningful" 임상 또는 교육적 결과의 대체물surrogate로 사용된다[17]. 우리는 [학습자들이 시뮬레이션된 환경에서 얼마나 잘 수행하는지]를 알고 싶은 것이 아니다; 우리는 그들이 실제 생활에서 어떻게 수행하는지 알고 싶다. 타당화에 대한 포괄적인 접근법에는 평가 결과가 다른 설정과 결과에 추정하는 정도를 평가하는 것이 포함된다[18, 19].
In addition, simulation-based assessments are almost by definition used as surrogates for a more “meaningful” clinical or educational outcome [17]. Rarely do we actually want to know how well learners perform in a simulated environment; usually, we want to know how they would perform in real life. A comprehensive approach to validation will include evaluating the degree to which assessment results extrapolate to different settings and outcomes [18, 19].

타당성 증거란 무엇을 의미하는가?
What do we mean by validity evidence?

[고전적인 타당화 프레임워크]는 적어도 세 가지 다른 "유형"의 타당성을 식별했다: 내용, 구성, 준거. 표 1을 참조하십시오. 그러나 이러한 관점은 보다 미묘하면서도 통일된 실용적 타당성 관점으로 대체되었다[10, 12, 20]. 현대의 틀은 타당성을 [가설]로 보고, 연구자가 [연구 가설]을 지지하거나 반박하기 위해 증거를 수집하는 것처럼, 타당성 증거는 [타당성 가설]을 지지하거나 반박하기 위해 수집된다. 가설을 절대 증명할 수 없듯이, 타당성은 절대 증명할 수 없다. 그러나 증거가 축적됨에 따라 [타당성 주장을 지지하거나 반박]할 수 있다.

Classical validation frameworks identified at least three different “types” of validity: contentconstruct, and criterion; see Table 1. However, this perspective has been replaced by more nuanced yet unified and practical views of validity [10, 12, 20]. Contemporary frameworks view validity as a hypothesis, and just as a researcher would collect evidence to support or refute a research hypothesis, validity evidence is collected to support or refute the validity hypothesis (more commonly referred to as the validity argument). Just as one can never prove a hypothesis, validity can never be proven; but evidence can, as it accumulates, support or refute the validity argument.

최초의 현대적 타당성 프레임워크는 1989년 Messick에 의해 제안되었고 [21] 1999년 [22] 그리고 2014년 [23]에 이 분야의 표준으로 채택되었다. 이 프레임워크는 고전적 프레임워크와 부분적으로 중복되는 다섯 가지 타당성 증거의 출처를 제안한다[24–26]. (표 2 참조)

  • 콘텐츠 증거(콘텐츠 유효성의 개념과 본질적으로 동일)는 평가 항목(시나리오, 질문 및 응답 옵션 포함)이 측정하고자 하는 구성을 반영하도록 하기 위해 취한 단계를 말한다.
  • 내부 구조 증거는 신뢰성, 도메인 또는 요인 구조, 항목 난이도 등 개별 평가 항목과 주요 구성 요소 간의 관계를 평가한다.
  • 다른 변수와의 관계 증거는 평가 결과와 다른 측정 또는 학습자 특성 사이의 연관성을 긍정 또는 부정, 강 또는 약하게 평가한다. 이것은 준거criterion 타당성과 구성construct 타당성에 대한 고전적인 개념과 밀접하게 일치한다.
  • 반응 프로세스 증거는 문서화된 레코드(응답, 등급 또는 자유 텍스트 서술)가 관찰된 성능을 얼마나 잘 반영하는지 평가합니다. 응답 품질을 방해할 수 있는 문제에는 제대로 훈련되지 않은 평가자, 저품질 비디오 녹화, 부정행위 등이 포함된다.
  • 결과 증거는 유익하거나 유해한 평가 자체와 그 결과로 발생하는 결정과 조치의 영향을 살펴봅니다 [27–29].

The first contemporary validity framework was proposed by Messick in 1989 [21] and adopted as a standard for the field in 1999 [22] and again in 2014 [23]. This framework proposes five sources of validity evidence [2426] that overlap in part with the classical framework (see Table 2). 

  • Content evidence, which is essentially the same as the old concept of content validity, refers to the steps taken to ensure that assessment items (including scenarios, questions, and response options) reflect the construct they are intended to measure. 
  • Internal structure evidence evaluates the relationships of individual assessment items with each other and with the overarching construct(s), e.g., reliability, domain or factor structure, and item difficulty. 
  • Relationships with other variables evidence evaluates the associations, positive or negative and strong or weak, between assessment results and other measures or learner characteristics. This corresponds closely with classical notions of criterion validity and construct validity. 
  • Response process evidence evaluates how well the documented record (answer, rating, or free-text narrative) reflects the observed performance. Issues that might interfere with the quality of responses include poorly trained raters, low-quality video recordings, and cheating. 
  • Consequences evidence looks at the impact, beneficial or harmful, of the assessment itself and the decisions and actions that result [2729].

교육자와 연구자는 평가 및 해당 결정과 가장 관련이 있는 증거를 확인한 후 이 증거를 수집하고 평가하여 타당성 주장을 공식화해야 한다. 불행하게도, 이 "5가지 근거 소스" 프레임워크는 증거 사이의 우선 순위를 정하거나, 증거를 선택하는 데 있어 불완전한 지침만을 제공한다.
Educators and researchers must identify the evidence most relevant to their assessment and corresponding decision, then collect and appraise this evidence to formulate a validity argument. Unfortunately, the “five sources of evidence” framework provides incomplete guidance in such prioritization or selection of evidence.

Kane의 최신 유효성 프레임워크는 평가 활동에서 4가지 주요 추론을 식별함으로써 우선순위 부여 문제를 다룬다(표 3). 고전적 또는 5가지 증거 소스 프레임워크에 익숙한 사람들에게 케인의 프레임워크는 용어와 개념이 완전히 새로워 처음에는 종종 도전적이다. 사실, 이 프레임워크를 학습할 때, 우리는 이전 프레임워크의 개념과 일치하려고 시도하지 않는 것이 도움이 된다는 것을 발견했다. 오히려, 우리는 모든 평가 활동에 관련된 단계들을 개념적으로 고려하는 것으로 혁신을 시작한다.
The most recent validity framework, from Kane [10, 12, 30], addresses the issue of prioritization by identifying four key inferences in an assessment activity (Table 3). For those accustomed to the classical or five-evidence-sources framework, Kane’s framework is often challenging at first because the terminology and concepts are entirely new. In fact, when learning this framework, we have found that it helps to not attempt to match concepts with those of earlier frameworks. Rather, we begin de novo by considering conceptually the stages involved in any assessment activity.

평가는 객관식 시험 항목에 대한 답변, 실제 또는 표준화된 환자 인터뷰 또는 절차적 작업 수행과 같은 일종의 [수행performance]으로 시작한다.

  • 이 관찰에 기초하여, 우리가 성능 수준을 반영한다고 가정하는 점수 또는 서면 서술이 문서화됩니다. 
  • 여러 점수 또는 서술이 결합되어 시험 환경에서 수행능력을 반영한다고 가정하는 전체 점수 또는 해석을 생성합니다. 
  • 시험 환경에서의 수행능력은 실제 환경에서 원하는 성능을 반영하는 것으로 가정한다. 
  • 그리고 그 성과는 의미 있는 결정을 내리기 위한 합리적인 근거를 구성한다고 가정한다(그림 1 참조).

An assessment starts with a performance of some kind, such as answering a multiple-choice test item, interviewing a real or standardized patient, or performing a procedural task.

  • Based on this observation, a score or written narrative is documented that we assume reflects the level of performance;
  • several scores or narratives are combined to generate an overall score or interpretation that we assume reflects the desired performance in a test setting;
  • the performance in a test setting is assumed to reflect the desired performance in a real-life setting; and
  • that performance is further assumed to constitute a rational basis for making a meaningful decision (see Fig. 1).

이러한 가정들 각각은 실제로 정당화될 수 없는 추론을 나타낸다.

  • 성과의 문서화가 부정확할 수 있다. (점수 추론)
  • 개별 점수의 합성은 원하는 시험 영역에 걸쳐 수행능력을 정확하게 반영하지 못할 수 있다(일반화 추론). 
  • 합성 점수는 또한 실제 수행능력을 반영하지 않을 수 있다(외삽 추론). 
  • 이 성능(시험 설정 또는 실제)은 원하는 결정을 위한 적절한 기반을 형성하지 못할 수 있다. (함의 또는 결정 추론)

Each of these assumptions represents an inference that might not actually be justifiable.

  • The documentation of performance (scoring inference) could be inaccurate;
  • the synthesis of individual scores might not accurately reflect performance across the desired test domains (generalization inference);
  • the synthesized score also might not reflect real-life performance (extrapolation inference); and
  • this performance (in a test setting or real life) might not form a proper foundation for the desired decision (implications or decision inference).

케인의 타당성 프레임워크는 이 네 가지 추론에 대한 정당성을 명시적으로 평가한다. 우리는 케인의 프레임워크에 대해 더 알고 싶은 사람들을 그의 설명[10, 30]과 그의 최근 작품 개요[12]에 언급한다.

Kane’s validity framework explicitly evaluates the justifications for each of these four inferences. We refer those wishing to learn more about Kane’s framework to his description [10, 30] and to our recent synopsis of his work [12].

교육자들과 연구원들은 종종 얼마나 많은 타당성 증거가 필요한지 그리고 새로운 맥락에서 도구를 사용할 때 이전 검증의 증거가 어떻게 적용되는지 묻는다. 불행하게도, 이러한 질문에 대한 대답은 잘못된 결정의 위험성(즉, 평가의 "부담stakes"), 의도된 사용 및 상황적 차이의 크기와 중요성을 포함한 몇 가지 요인에 따라 달라진다. 모든 평가가 중요해야 하지만, 일부 평가 결정은 다른 평가보다 학습자의 삶에 더 많은 영향을 미친다. 연구 목적으로 사용되는 평가를 포함하여 더 큰 영향력 또는 더 큰 위험성을 가진 평가는 증거의 양, 품질 및 범위에 대해 더 높은 기준을 가질 가치가 있다. 엄밀히 말하면, 타당성 증거는 그것이 수집된 목적, 맥락 및 학습자 그룹에만 적용된다. 기존 증거는 평가 접근법의 선택을 안내할 수 있지만 향후 해석과 사용을 지지하지는 않는다

Educators and researchers often ask how much validity evidence is needed and how the evidence from a previous validation applies when an instrument is used in a new context. Unfortunately, the answers to these questions depend on several factors including the risk of making a wrong decision (i.e., the “stakes” of the assessment), the intended use, and the magnitude and salience of contextual differences. While all assessments should be important, some assessment decisions have more impact on a learner’s life than others. Assessments with higher impact or higher risk, including those used for research purposes, merit higher standards for the quantity, quality, and breadth of evidence. Strictly speaking, validity evidence applies only to the purpose, context, and learner group in which it was collected; existing evidence might guide our choice of assessment approach but does not support our future interpretations and use.

물론, 현실에서, 우리는 타당성 주장을 구성할 때 기존 증거를 일상적으로 고려한다. 오래된 증거가 새로운 상황에 적용되는지 여부는 상황 차이가 증거의 관련성에 어떻게 영향을 미칠 수 있는지에 대한 비판적인 평가를 필요로 한다. 예를 들어,

  • 체크리스트의 일부 항목은 서로 다른 직무에 걸쳐 관련될 수 있는 반면, 다른 항목은 직무에 특정적일 수 있다.
  • 신뢰성은 그룹마다 크게 다를 수 있으며, 일반적으로 더 동질적인 학습자 사이에서 더 낮은 값을 갖는다. 
  • [맥락의 차이(입원 환자 대 외래 환자), 학습자 수준(의대학생 대 시니어 전공의), 목적]의 차이가 내용, 다른 변수와의 관계 또는 결과에 대한 우리의 해석에 영향을 미칠 수 있다. 

Of course, in practice, we routinely consider existing evidence in constructing a validity argument. Whether old evidence applies to a new situation requires a critical appraisal of how situational differences might influence the relevance of the evidence. For example,

  • some items on a checklist might be relevant across different tasks while others might be task-specific;
  • reliability can vary substantially from one group to another, with typically lower values among more homogeneous learners; and
  • differences in context (inpatient vs outpatient), learner level (junior medical student vs senior resident), and purpose might affect our interpretation of evidence of content, relations with other variables, or consequences.

우리의 것과 유사한 맥락에서 수집된 증거와 다양한 맥락에서 일관된 발견은 우리의 타당성 주장을 구성하는 데 기존 증거를 포함하려는 우리의 선택을 뒷받침할 것이다.
Evidence collected in contexts similar to ours and consistent findings across a variety of contexts will support our choice to include existing evidence in constructing our validity argument.

타당성 논쟁은 무엇을 의미합니까?
What do we mean by validity argument?

케인은 네 가지 핵심 추론을 명확히 하는 것 외에도 사전 "해석-사용 주장argument" 또는 "IUA"와 최종 "타당성 주장"이라는 두 가지 뚜렷한 논쟁 단계를 강조함으로써 검증 과정에서 "주장"에 대한 우리의 이해를 진전시켰다.

In addition to clarifying the four key inferences, Kane has advanced our understanding of “argument” in the validation process by emphasizing two distinct stages of argument: an up-front “interpretation-use argument” or “IUA,” and a final “validity argument.”

위에서 언급한 바와 같이, 모든 해석과 사용(즉, 결정)은 다수의 가정을 수반한다. 예를 들어 가상 현실 평가의 점수를 해석할 때 시각적 표현, 시뮬레이터 제어 및 작업 자체를 포함한 시뮬레이션 작업이 임상적으로 중요한 작업과 관련이 있다고 가정할 수 있다. 

  • 채점 알고리즘이 해당 작업의 중요한 요소를 설명하는지 여부 
  • 교육자 성과를 신뢰성 있게 측정하기에 충분한 과제와 과제 간 다양성이 있는지 여부 
  • 훈련생들이 목표 점수를 달성할 때까지 계속 연습하도록 하는 것이 유익한지 여부

As noted above, all interpretations and uses—i.e., decisions—incur a number of assumptions. For example, in interpreting the scores from a virtual reality assessment, we might assume that the simulation task—including the visual representation, the simulator controls, and the task itself—has relevance to tasks of clinical significance;

  • that the scoring algorithm accounts for important elements of that task;
  • that there are enough tasks, and enough variety among tasks, to reliably gauge trainee performance; and
  • that it is beneficial to require trainees to continue practicing until they achieve a target score.

이러한 가정들은 테스트할 수 있고 테스트해야 합니다! 많은 가정이 암묵적이며 증거를 수집하거나 조사하기 전에 이를 인식하고 명시적으로 진술하는 것이 필수적인 단계이다. 의도된 용도를 지정했으면 다음을 수행해야 합니다.

  • (a) 가능한 한 많은 [가정을 확인]한다. 
  • (b) 가장 우려되거나 의심스러운 [가정에 우선 순위]를 매긴다. 
  • (c) 각 가정의 정확성을 확인하거나 반박할 [증거를 수집하는 계획]을 세우다 

그 결과 우선 순위화된 가정과 원하는 증거 목록이 [해석-사용 주장]을 구성한다. 해석-사용 주장을 명시하는 것은 연구 가설을 진술하고 그 가설을 경험적으로 검증하는 데 필요한 증거를 명확히 하는 것과 개념적으로나 중요하다.

These and other assumptions can and must be tested! Many assumptions are implicit, and recognizing and explicitly stating them before collecting or examining the evidence is an essential step. Once we have specified the intended use, we need to

  • (a) identify as many assumptions as possible,
  • (b) prioritize the most worrisome or questionable assumptions, and
  • (c) come up with a plan to collect evidence that will confirm or refute the correctness of each assumption.

The resulting prioritized list of assumptions and desired evidence constitute the interpretation-use argument. Specifying the interpretation-use argument is analogous both conceptually and in importance to stating a research hypothesis and articulating the evidence required to empirically test that hypothesis.

일단 평가 계획이 구현되고 증거가 수집되면, 우리는 증거를 합성하고, 이러한 발견을 원래의 해석-사용 논쟁에서 예상한 것과 대조하고, 강점과 약점을 식별하고, 이것을 [최종 타당성 주장]으로 증류한다. 타당성 주장은 해석과 용도가 실제로 방어할 수 있다는 것(또는 중요한 갭이 남아 있다는 것)을 다른 사람들에게 설득하려고 시도하지만, [잠재적 사용자들]은 [근거의 충분성]과 [bottom-line 평가]의 정확성에 관한 자신의 결론에 도달할 수 있어야 한다. 우리의 일은 변호사가 배심원 앞에서 사건을 주장하는 것과 비슷하다. 우리는 전략적으로 증거를 찾고 정리하고 해석하며 정직하고 완전하며 설득력 있는 주장을 제시하지만, 궁극적으로 의도된 사용과 맥락에 대한 타당성에 대한 판단을 내리는 것은 [잠재적 사용자]라는 "배심원jury"이다. [31]

Once the evaluation plan has been implemented and evidence has been collected, we synthesize the evidence, contrast these findings with what we anticipated in the original interpretation-use argument, identify strengths and weaknesses, and distill this into a final validity argument. Although the validity argument attempts to persuade others that the interpretations and uses are indeed defensible—or that important gaps remain—potential users should be able to arrive at their own conclusions regarding the sufficiency of the evidence and the accuracy of the bottom-line appraisal. Our work is similar to that of an attorney arguing a case before a jury: we strategically seek, organize, and interpret the evidence and present an honest, complete, and compelling argument, yet it is the “jury” of potential users that ultimately passes judgment on validity for their intended use and context. [31]

단일 연구가 특정 결정을 뒷받침하는 데 필요한 모든 타당성 증거를 수집할 가능성은 낮다. 오히려, 다른 연구는 일반적으로 논쟁의 다른 측면을 다룰 것이며, 교육자들은 그들의 맥락과 필요에 대한 평가 도구를 선택할 때 [증거의 전체성totality]을 고려할 필요가 있다.
It is unlikely that any single study will gather all the validity evidence required to support a specific decision. Rather, different studies will usually address different aspects of the argument, and educators need to consider the totality of the evidence when choosing an assessment instrument for their context and needs.

물론, 연구원들이 단순히 증거를 수집하는 것만으로는 충분하지 않다. 중요한 것은 증거의 양뿐만 아니라 관련성, 품질 및 폭이다. 점수 신뢰성에 대한 풍부한 증거를 수집한다고 해서 내용, 관계 또는 결과에 대한 증거가 필요하지 않습니다. 반대로, 기존의 증거가 견고하고 엄격한 항목 개발 과정과 같이 우리의 맥락에 논리적으로 적용될 수 있다면, 그러한 노력을 복제하는 것이 최우선 순위가 아닐 수 있다. 불행하게도, 연구자들은, 종종 가정의 중요성을 의도적으로 우선시하지 못하거나 [해석-사용 주장]을 완전히 건너뛰기 때문에, 가장 중요한 가정보다는 시험하기 쉬운 가정에 대한 증거를 보고할 수 있다.
Of course, it is not enough for researchers to simply collect any evidence. It is not just the quantity of evidence that matters, but also the relevance, quality, and breadth. Collecting abundant evidence of score reliability does not obviate the need for evidence about content, relationships, or consequences. Conversely, if existing evidence is robust and logically applicable to our context, such as a rigorous item development process, then replicating such efforts may not be top priority. Unfortunately, researchers often inadvertently fail to deliberately prioritize the importance of the assumptions or skip the interpretation-use argument altogether, which can result in reporting evidence for assumptions that are easy to test rather than those that are most critical.

검증에 대한 실용적인 접근 방식
A practical approach to validation

위의 개념들은 검증 과정을 이해하는 데 필수적이지만, 이 과정을 실용적인 방법으로 적용할 수 있는 것도 중요하다. 표 4에는 위에서 설명한 타당성 프레임워크(클래식, 메식 또는 케인)와 함께 작동할 수 있는 검증에 대한 하나의 가능한 접근법이 요약되어 있다. 이 섹션에서는 가상 시뮬레이션 기반 예를 사용하여 이 접근 방식을 설명합니다.
Although the above concepts are essential to understanding the process of validation, it is also important to be able to apply this process in practical ways. Table 4 outlines one possible approach to validation that would work with any of the validity frameworks described above (classical, Messick, or Kane). In this section, we will illustrate this approach using a hypothetical simulation-based example.

 

파트 태스크 트레이너를 사용하여 1학년 내과 레지던트에게 요추 천자(LP)를 가르치고 있다고 상상해 보십시오. 교육 세션이 끝나면 학습자가 실제 환자와 함께 안전하게 LP를 시도할 준비가 되어 있는지 평가하고자 합니다.
Imagine that we are teaching first year internal medicine residents lumbar puncture (LP) using a part-task trainer. At the end of the training session, we wish to assess whether the learners are ready to safely attempt an LP with a real patient under supervision.

 

1. 구성 및 제안된 해석을 정의합니다.
1.Define the construct and proposed interpretation

타당화는 관심 구인을 고려하는 것으로 시작한다. 예를 들어, 우리는 LP 표시와 위험에 대한 학습자의 지식, LP 수행 능력 또는 LP를 시도할 때 비기술적 기술에 관심이 있는가? 이들은 각각 다른 평가 도구를 선택해야 하는 서로 다른 구인이다. 지식을 평가하기 위해 객관식 질문(MCQ)을 선택할 수도 있고, 부분 작업 트레이너를 사용하여 절차적 스킬을 평가하기 위한 일련의 스킬 스테이션(OSATS) [32] 또는 소생 시나리오를 사용하여 선택할 수도 있습니다. 충실도가 높은 마네킹과 비기술적 기술(NOTECHS) 척도로 비기술적 기술을 평가하기 위한 공급자 팀[33].
Validation begins by considering the construct of interest. For example, are we interested in the learners’ knowledge of LP indications and risks, their ability to perform LP, or their non-technical skills when attempting an LP? Each of these is a different construct requiring selection of a different assessment tool: we might choose multiple-choice questions (MCQs) to assess knowledge, a series of skill stations using a part-task trainer to asses procedural skill with an Objective Structured Assessment of Technical Skills (OSATS) [
32], or a resuscitation scenario using a high-fidelity manikin and a team of providers to assess non-technical skills with the Non-Technical Skills (NOTECHS) scale [33]


우리의 예에서, [구인]은 "LP 기술"이고 [해석]은 "학습자는 실제 환자에게 감독된 LP를 시도하기에 충분한 기본적인 LP 기술을 가지고 있다"는 것이다.
In our example, the construct is “LP skill” and the interpretation is that “learners have fundamental LP skills sufficient to attempt a supervised LP on a real patient.”

2. 의도된 결정을 명시합니다.
2.Make explicit the intended decision(s)

그러한 해석에 기초하여 [우리가 내릴 것으로 예상되는 결정]에 대한 명확한 생각이 없다면, 우리는 일관성 있는 타당성 주장을 만들 수 없을 것이다.
Without a clear idea of the decisions we anticipate making based on those interpretations, we will be unable to craft a coherent validity argument.

우리의 예에서, 우리의 [최우선 결정]은 [학습자가 실제 환자에게 감독된 LP를 시도할 수 있는 충분한 절차적 역량을 가지고 있는지 여부]이다. 대안적으로 고려할 수 있는 다른 결정에는 학습자에게 [피드백을 제공할 성과 지점을 식별]하거나, 학습자가 [다음 교육 단계로 승진할 수 있는지 여부]를 결정하거나, 학습자에게 [라이센스를 인증]하는 것이 포함됩니다.
In our example, our foremost decision is whether the learner has sufficient procedural competence to attempt a supervised LP on a real patient. Other decisions we might alternatively consider include identifying performance points on which to offer feedback to the learner, deciding if the learner can be promoted to the next stage of training, or certifying the learner for licensure.

3. 해석-사용 주장을 정의하고, 필요한 타당성 증거의 우선 순위를 정합니다.
3.Define the interpretation-use argument, and prioritize needed validity evidence

우리는 해석과 결정을 내릴 때, 많은 가정을 실행하며, 이것들은 검증되어야 한다. 주요 가정을 식별하고 우선 순위를 정하고 우리가 찾기를 원하는 증거를 예상하면 해석-사용 논쟁의 개요를 설명할 수 있다[30].
In making our interpretations and decisions, we will invoke a number of assumptions, and these must be tested. Identifying and prioritizing key assumptions and anticipating the evidence we hope to find allows us to outline an interpretation-use argument [30].

우리의 시나리오에서, 우리는 "합격"이 실제 환자에게 감독된 LP를 시도할 수 있는 능력을 나타내는 평가 도구를 찾고 있다. 우리는 이것이 기술 스테이션에서 학생들의 성과를 평가하는 의사를 포함할 것으로 예상한다. 이러한 맥락에 포함된 가정은 다음과 같다.

  • 스테이션은 LP 성능에 필수적인 기술(무균 기술 또는 기구 취급에 대한 일반적인 기술 대)을 테스트하도록 설정되었고,
  • 평가자가 적절하게 훈련되었으며,
  • 서로 다른 평가자도 유사한 점수를 줄 것이며,
  • 시험에서 더 높은 점수를 받은 학습자가 첫 번째 환자 대상 시도에서 더 안전하게 수행하게 될 것이다.

In our scenario, we are looking for an assessment instrument in which a “pass” indicates competence to attempt a supervised LP on a real patient. We anticipate that this will involve a physician rating student performance on a skills station. Assumptions in this context include

  • that the station is set up to test techniques essential for LP performance (vs generic skills in sterile technique or instrument handling),
  • that the rater is properly trained,
  • that a different rater would give similar scores, and
  • that learners who score higher on the test will perform more safely on their first patient attempt.

이러한 [가정을 지지하거나 반박해야 할 수 있는 증거]를 고려하고 케인의 프레임워크를 지침으로 삼아 다음과 같은 해석-사용 주장을 제안한다. 증거가 이미 수집됐는지, 직접 수집해야 할지는 현 단계에서 알 수 없지만 최소한 무엇을 찾아야 할지는 파악했다.

  • (a)점수 매기기: 성능에 대한 관찰이 일관된 숫자 점수로 올바르게 변환됩니다. 증거는 기기 내의 항목이 LP 성능과 관련이 있고 평가자가 기기 사용 방법을 이해했으며 비디오 녹화 성능이 직접적인 관찰과 유사한 점수를 산출한다는 것을 이상적으로 보여준다.
  • (b)일반화: 단일 성능의 점수는 테스트 설정의 전체 점수와 일치합니다. 증거는 우리가 성능을 적절하게 샘플링했다는 것(충분한 시뮬레이션 LP 수와 시뮬레이션된 환자 습관 변경과 같은 충분한 다양한 조건)과 성과 간 및 평가자 간(스테이션 간 및 평가자 간 신뢰성)을 이상적으로 보여줄 것이다.
  • (c)외삽: 평가 점수는 실제 성과와 관련이 있습니다. 증거는 기기의 점수가 절차 로그, 환자 부작용 사건 또는 감독자 등급과 같은 실제 상황에서 다른 LP 성능 측정과 상관관계가 있다는 것을 이상적으로 보여준다.
  • (d)함의: 평가는 학습자, 훈련 프로그램 또는 환자에게 중요하고 긍정적인 영향을 미치며 부정적인 영향은 미미합니다. 증거는 이상적으로 학생들이 평가 후에 더 준비가 되었다고 느끼고, 교정조치가 필요한 학생들은 이 시간이 충분히 소비되었다고 느끼고, 실제 환자의 LP 합병증은 시행 후 1년 동안 감소한다는 것을 보여줄 것이다.

Considering the evidence we might need to support or refute these assumptions, and using Kane’s framework as a guide, we propose an interpretation-use argument as follows. We do not know at this stage whether evidence has already been collected or if we will need to collect it ourselves, but we have at least identified what to look for.

  1. (a)Scoring: the observation of performance is correctly transformed into a consistent numeric score. Evidence will ideally show that the items within the instrument are relevant to LP performance, that raters understood how to use the instrument, and that video-recording performance yields similar scores as direct observation.
  2. (b)Generalization: scores on a single performance align with overall scores in the test setting. Evidence will ideally show that we have adequately sampled performance (sufficient number of simulated LPs, and sufficient variety of conditions such as varying the simulated patient habitus) and that scores are reproducible between performances and between raters (inter-station and inter-rater reliability).
  3. (c)Extrapolation: assessment scores relate to real-world performance. Evidence will ideally show that scores from the instrument correlate with other LP performance measures in real practice, such as procedural logs, patient adverse events, or supervisor ratings.
  4. (d)Implications: the assessment has important and favorable effects on learners, training programs, or patients, and negative effects are minimal. Evidence will ideally show that students feel more prepared following the assessment, that those requiring remediation feel this time was well spent, and that LP complications in real patients decline in the year following implementation.

우리는 타당화에서 이 처음 세 단계의 중요성을 아무리 강조해도 지나치지 않다. 제안된 해석, 의도된 결정(들) 및 가정과 그에 상응하는 증거를 명확하게 설명하는 것은 그 이후의 모든 것을 위한 단계를 집합적으로 설정한다.
We cannot over-emphasize the importance of these first three steps in validation. Clearly articulating the proposed interpretations, intended decision(s), and assumptions and corresponding evidence collectively set the stage for everything that follows.

4. 후보 평가도구 식별 및/또는 새 평가도구 생성/어댑트
4.Identify candidate instruments and/or create/adapt a new instrument

우리는 목표 구인과 개념적으로 일치하는 측정 형식을 식별한 다음, 우리의 요구에 부합하거나 적응할 수 있는 기존 도구를 검색해야 한다. 엄격한 검색은 최종 평가를 뒷받침할 내용 증거를 제공합니다. 적절한 기존 평가도구를 찾을 수 없는 경우에만 평가도구 개발을 해야 한다.
We should identify a measurement format that aligns conceptually with our target construct and then search for existing instruments that meet or could be adapted to our needs. A rigorous search provides content evidence to support our final assessment. Only if we cannot find an appropriate existing instrument would we develop an instrument de novo.

우리는 LP[34]에서 PGY-1의 절차적 역량 평가를 위한 체크리스트에 대한 설명을 찾는다. 체크리스트는 유사한 교육적 맥락에서 사용될 것이기 때문에 우리의 목적에 매우 적합한 것으로 보인다. 따라서 우리는 도구를 변경하지 않고 증거를 평가하는 작업을 계속합니다.

We find a description of a checklist for assessing PGY-1’s procedural competence in LP [34]. The checklist appears well suited for our purpose, as we will be using it in a similar educational context; we thus proceed to appraising the evidence without changing the instrument.

5.기존 증거를 평가하고 필요에 따라 새로운 증거를 수집합니다.
5.Appraise existing evidence and collect new evidence as needed

기존 증거는 그렇지 않지만, 엄밀히 말하면, 실제적인 목적을 위해 우리는 이 도구를 사용할지 여부를 결정할 때 기존 증거에 크게 의존할 것이다. 물론, 우리는 우리 자신의 증거도 수집하기를 원하겠지만, 우리는 현재 이용 가능한 것에 기초해야 한다.
Although existing evidence does not, strictly speaking apply to our situation, for practical purposes we will rely heavily on existing evidence as we decide whether to use this instrument. Of course, we will want to collect our own evidence as well, but we must base our initial adoption on what is now available.

우리는 기존의 증거를 찾는 것에서부터 타당성 주장에 대한 평가를 시작한다.

  • 원본 설명[34]은 공식적인 LP 과제 분석과 전문가 합의를 통해 체크리스트 항목의 개발을 기술함으로써 채점 증거를 제공한다.
  • 평가자 간 신뢰성이 우수하여 일반화 증거를 제공하고, 경험이 많은 거주자가 체크리스트 점수가 더 높았음을 확인함으로써 제한된 외삽 증거를 추가한다.
  • 동일하거나 약간 수정된 체크리스트를 사용한 다른 연구는 좋은 평가자 간 신뢰성으로 추가 일반화 증거를 제공하며 [35, 36] 훈련 후 점수가 더 높고 [35, 37] 계측기가 실제 환자 LP를 평가하는 데 사용될 때 중요한 학습자 오류를 식별했다는 것을 보여줌으로써 외삽 증거를 제공한다[38].
  • 또한 한 연구는 시뮬레이션 환경에서 역량을 획득하는 데 필요한 연습 시도 횟수를 계산하여 제한적인 함의 증거를 제공했다[37]. 

We begin our appraisal of the validity argument by searching for existing evidence.

  • The original description [34] offers scoring evidence by describing the development of checklist items through formal LP task analysis and expert consensus.
  • It provides generalization evidence by showing good inter-rater reliability, and adds limited extrapolation evidence by confirming that residents with more experience had higher checklist scores.
  • Other studies using the same or a slightly modified checklist provide further evidence for generalization with good inter-rater reliabilities [3536], and contribute extrapolation evidence by showing that scores are higher after training [3537] and that the instrument identified important learner errors when used to rate real patient LPs [38].
  • One study also provided limited implications evidence by counting the number of practice attempts required to attain competence in the simulation setting [37].

이러한 기존 연구에 비추어 볼 때, 우리는 이 도구를 처음 채택하기 전에 더 많은 증거를 수집할 계획을 세우지 않을 것이다. 그러나, 우리는 이행하는 동안, 특히 우리가 중요한 gap을 식별한다면, 우리 자신의 증거를 수집할 것이다. 즉, 유효성 검사 프로세스의 후반 단계에서 수집할 것이라는 의미이다.

In light of these existing studies, we will not plan to collect more evidence before our initial adoption of this instrument. However, we will collect our own evidence during implementation, especially if we identify important gaps, i.e., at later stages in the validation process; see below.

6. 비용을 포함한 실질적인 문제를 추적합니다.
6.Keep track of practical issues including cost

중요하지만 종종 제대로 평가되지 않고 연구되지 않은 검증의 측면은 개발, 구현 및 점수의 해석을 둘러싼 실제 문제와 관련이 있다. 평가 절차는 뛰어난 데이터를 산출할 수 있지만, 비용이 엄청나게 많이 들거나, 필요한 물류나 전문성이 현지의 가용 자원을 초과하는 경우 구현이 불가능할 수 있습니다.

An important yet often poorly appreciated and under-studied aspect of validation concerns the practical issues surrounding development, implementation, and interpretation of scores. An assessment procedure might yield outstanding data, but if it is prohibitively expensive or if logistical or expertise requirements exceed local resources, it may be impossible to implement.

LP 계측기의 경우, 한 연구[37]는 시뮬레이션 기반 LP 교육 및 평가 세션의 운영 비용을 추적했다. 저자들은 훈련된 비의사 평가자를 사용함으로써 비용을 줄일 수 있다고 제안했다. 우리가 그 기구를 시행하면서, 특히 새로운 타당성 증거를 수집한다면, 우리는 마찬가지로 돈, 인적 및 비인적 자원, 그리고 다른 실질적인 문제와 같은 비용을 모니터링해야 한다.
For the LP instrument, one study [37] tracked the costs of running a simulation-based LP training and assessment session; the authors suggested that costs could be reduced by using trained non-physician raters. As we implement the instrument, and especially if we collect fresh validity evidence, we should likewise monitor costs such as money, human and non-human resources, and other practical issues.

7.해석-사용 주장와 관련하여 타당성 인수를 공식화/합성합니다.
7.Formulate/synthesize the validity argument in relation to the interpretation-use argument

이제 우리는 원하는 해석과 결정(해석-사용 주장)을 뒷받침하기 위해 필요한 것으로 사전에 식별한 증거와 사용할 수 있는 증거(유효성 주장)를 비교한다.
We now compare the evidence available (the validity argument) against the evidence we identified up-front as necessary to support the desired interpretations and decisions (the interpretation-use argument).

우리는 합리적인 점수 매기기 및 일반화 증거, 외삽 증거의 차이(시뮬레이션과 실제 성능 간의 직접적인 비교가 이루어지지 않음) 및 제한된 함의 증거를 찾는다. 거의 항상 그렇듯이 해석-사용 주장과 사용 가능한 증거 사이의 일치는 완벽하지 않다. 일부 갭은 남아 있고, 일부 증거는 우리가 원하는 만큼 유리하지 않다.
We find reasonable scoring and generalization evidence, a gap in the extrapolation evidence (direct comparisons between simulation and real-world performance have not been done), and limited implications evidence. As is nearly always the case, the match between the interpretation-use argument and the available evidence is not perfect; some gaps remain, and some of the evidence is not as favorable as we might wish.

8.판단을 내리십시오. 그 증거가 의도된 사용을 뒷받침합니까?
8.Make a judgment: does the evidence support the intended use?

검증의 마지막 단계는 증거의 충분성과 적합성을 판단하는 것이다. 즉, 타당성 주장과 관련 증거가 제안된 해석-사용 주장의 요구를 충족하는지 여부.
The final step in validation is to judge the sufficiency and suitability of evidence, i.e., whether the validity argument and the associated evidence meet the demands of the proposed interpretation-use argument.

위에서 요약한 증거를 바탕으로, 우리는 타당성 주장이 그러한 해석을 뒷받침하고 합리적으로 잘 사용하고 있으며, 체크리스트는 우리의 목적에 적합한 것으로 보인다고 판단한다. 게다가, 비용은 지출된 노력에 비해 합리적인 것 같고, 우리는 평가자로서 훈련을 받기를 열망하는 시뮬레이션 실험실의 조수를 만날 수 있다.
Based on the evidence summarized above, we judge that the validity argument supports those interpretations and uses reasonably well, and the checklist appears suitable for our purposes. Moreover, the costs seem reasonable for the effort expended, and we have access to an assistant in the simulation laboratory who is keen to be trained as a rater.

우리는 또한 우리 기관에서 도구를 구현하면서 연구 연구를 수행하여 위에 언급된 증거 격차를 해소할 수 있도록 도울 계획입니다. 외삽 추론을 뒷받침하기 위해 시뮬레이션 평가의 점수를 진행 중인 작업 공간 기반 LP 평가와 상관시킬 계획이다. 또한 성과가 부진한 전공의에 대한 추가 훈련의 효과를 추적하여 시사점 추론을 다룰 것이다. 즉, 평가의 다운스트림 결과입니다. 마지막으로, 우리는 학습자 모집단의 평가자 간, 사례 간 및 내부 일관성 신뢰성을 측정하고 위에서 언급한 바와 같이 비용과 실제 문제를 모니터링할 것이다.
We also plan to help resolve the evidence gaps noted above by conducting a research study as we implement the instrument at our institution. To buttress the extrapolation inference we plan to correlate scores from the simulation assessment with ongoing workplace-based LP assessments. We will also address the implications inference by tracking the effects of additional training for poor performing residents, i.e., the downstream consequences of assessment. Finally, we will measure the inter-rater, inter-case, and internal consistency reliability in our learner population, and will monitor costs and practical issues as noted above.

 

동일한 평가도구를 다른 설정에 적용
Application of the same instrument to a different setting

사고 실험으로서, 만약 우리가 [같은 기구를 다른 목적과 결정에 사용]하기를 원한다면, 예를 들어, 신경과 수련생들이 [레지던시를 마칠 때 인증하는 고부담 시험의 일부]로서 위의 것들이 어떻게 전개될지 생각해 보자. 우리의 결정이 바뀌면, 우리의 해석-사용 주장도 바뀐다. 우리는 이제 [체크리스트의 "합격" 점수]가 [다양한 실제 환자에게 독립적으로 LP를 수행할 수 있는 능력]을 나타난대는 증거를 찾고 있을 것이다. 우리는 다른 또는 추가적인 타당성 증거를 요구할 것이다.

  • 일반화 (연령, 신체 습관 및 난이도에 영향을 미치는 기타 요인에 따라 달라지는 시뮬레이션된 환자에 대한 분석) 
  • 외삽 (시뮬레이션과 실제 성능 사이의 더 강력한 상관 관계 찾기) 및 
  • 함의 (예: 학습자를 독립적 실천을 위한 유능 또는 무능으로 정확하게 분류하고 있었다는 증거) 

As a thought exercise, let us consider how the above would unfold if we wanted to use the same instrument for a different purpose and decision, for example as part of a high-stakes exam to certify postgraduate neurologist trainees as they finish residency. As our decision changes, so does our interpretation-use argument; we would now be searching for evidence that a “pass” score on the checklist indicates competence to independently perform LPs on a variety of real patients. We would require different or additional validity evidence, with increased emphasis on

  • generalization (sampling across simulated patients that vary in age, body habitus, and other factors that influence difficulty),
  • extrapolation (looking for stronger correlation between simulation and real-life performance), and
  • implications evidence (e.g., evidence that we were accurately classifying learners as competent or incompetent for independent practice).

우리는 현재의 증거들이 이 주장을 뒷받침하지 않으며 다음 중 하나가 필요하다고 결론지어야 할 것이다. 

  • (a) 우리의 요구에 부합하는 증거를 가진 새로운 도구를 찾아라. 
  • (b) 새 도구를 만들고 처음부터 증거를 수집하기 시작합니다. 
  • (c) 공백을 메우기 위해 추가 타당성 증거를 수집합니다.

We would have to conclude that the current body of evidence does not support this argument and would need to either

  • (a) find a new instrument with evidence that meets our demands,
  • (b) create a new instrument and start collecting evidence from scratch, or
  • (c) collect additional validity evidence to fill in the gaps.

이 사고 연습은 두 가지 중요한 점을 강조한다. 첫째, 의사 결정이 변경될 때 해석-사용 주장이 변경될 수 있다. 둘째, 기구 자체는 "유효"하지 않다. 오히려, 검증되는 것은 해석이나 결정이다. 동일한 증거에 기초한 타당성의 최종 판단은 제안된 결정마다 다를 수 있다.

This thought exercise highlights two important points. First, the interpretation-use argument might change when the decision changes. Second, an instrument is not “valid” in and of itself; rather, it is the interpretations or decisions that are validated. A final judgment of validity based on the same evidence may differ for different proposed decisions.

타당화에서 피해가야 할 일반적인 실수
Common mistakes to avoid in validation

당사 자체의 타당화 노력[39–41]과 타인의 작업[9, 25, 42]을 검토하면서 최종 사용자의 결과를 이해하고 적용하는 능력을 저해하는 몇 가지 일반적인 실수를 확인했습니다. 우리는 동료 검토자에게 경고하고, 독자를 좌절시키고, 도구의 사용을 제한하도록 보장된 10개의 실수를 제시한다.
In our own validation efforts [3941] and in reviewing the work of others [9, 25, 42], we have identified several common mistakes that undermine the end-user’s ability to understand and apply the results. We present these as ten mistakes guaranteed to alarm peer reviewers, frustrate readers, and limit the uptake of an instrument.

1번 실수. 바퀴 재창조(매번 새로운 평가 작성)
Mistake 1. Reinvent the wheel (create a new assessment every time)

우리의 검토[9]는 대부분의 타당성 연구가 기존 도구를 사용하거나 채택하기보다는 새로 만들어진 도구에 초점을 맞춘다는 것을 발견했다. 그러나 대부분의 구조를 평가하는 도구가 이미 어떤 형태로 존재하기 때문에 학습자 평가를 시작할 때 완전히 처음부터 시작할 필요는 거의 없다. 기존 도구를 사용하거나 기존 도구를 사용하여 구축하면 도구를 새로 개발하는 수고를 덜 수 있고, 우리의 결과를 다른 사람의 이전 작업과 비교할 수 있으며, 다른 사람이 우리의 작업과 비교할 수 있으며, 해당 도구, 작업 또는 평가 양식에 대한 전체 증거 기반에 우리의 증거를 포함할 수 있다. OSATS [42], 복강경 수술의 기초 (FLS) [43] 및 기타 시뮬레이션 기반 평가에 대한 근거 검토[9]는 모두 근거 기반에 중요한 차이를 보여준다. 이러한 공백을 메우기 위해서는 동일한 평가에서 도출된 점수, 추론 및 결정에 대한 증거를 수집하는 데 초점을 맞춘 여러 조사관의 협업 노력이 필요하다.

Our review [9] found that the vast majority of validity studies focused on a newly created instrument rather than using or adapting an existing instrument. Yet, there is rarely a need to start completely from scratch when initiating learner assessment, as instruments to assess most constructs already exist in some form. Using or building from an existing instrument

  • saves the trouble of developing an instrument de novo,
  • allows us to compare our results with prior work, and
  • permits others to compare their work with ours and
  • include our evidence in the overall evidence base for that instrument, task, or assessment modality.

Reviews of evidence for the OSATS [42], Fundamentals of Laparoscopic Surgery (FLS) [43], and other simulation-based assessments [9] all show important gaps in the evidence base. Filling these gaps will require the collaborative effort of multiple investigators all focused on collecting evidence for the scores, inferences, and decisions derived from the same assessment.

실수 2. 타당화 프레임워크를 사용하지 않음
Mistake 2. Fail to use a validation framework

위에서 언급한 바와 같이, 검증 프레임워크는 증거의 선택과 수집에 엄격함을 더하고 그렇지 않으면 놓칠 수 있는 격차를 식별하는 데 도움이 된다. 어떤 프레임워크를 선택했느냐보다 더 중요한 것은 검증 노력에 프레임워크가 적용되는 시기(이상적으로 초기)와 방식(엄정하고 완전하게)이다.
As noted above, validation frameworks add rigor to the selection and collection of evidence and help identify gaps that might otherwise be missed. More important than the framework chosen is the timing (ideally early) and manner (rigorously and completely) in which the framework is applied in the validation effort.

3번 실수. 전문가와 초보자의 비교를 타당성 논쟁의 핵심으로 삼는다.
Mistake 3. Make expert-novice comparisons the crux of the validity argument

[경험이 적은 그룹의 점수]를 [경험이 많은 그룹의 점수]와 비교하는 것(예: 의대생 대 시니어 전공의)은 다른 변수와의 관계에 대한 증거를 수집하는 일반적인 접근법이다. 시뮬레이션 기반 평가 연구의 73%에서 보고되었다[9]. 그러나 이 접근법은 점수 차이가 의도된 구성과 무관한 무수한 요인에서 발생할 수 있기 때문에 약한 증거만을 제공한다[44]. 예를 들어, [봉합 능력]을 측정하기 위한 평가에서 실제로 [멸균 기술을 측정]하고 [봉합 능력 측정은 완전히 무시되었다]고 가정합니다. 만약 조사관이 3학년 의대생과 재학 중인 의사들 사이에서 실제로 이것을 시험한다면, 그는 아마도 주치의에게 유리한 상당한 차이를 발견할 것이고, 이 증거가 제안된 해석의 타당성(즉, 봉합 기술)을 뒷받침한다고 잘못 결론지을 수 있다.

Comparing the scores from a less experienced group against those from a more experienced group (e.g., medical students vs senior residents) is a common approach to collecting evidence of relationships with other variables—reported in 73% of studies of simulation-based assessment [9]. Yet this approach provides only weak evidence because the difference in scores may arise from a myriad of factors unrelated to the intended construct [44]. To take an extreme example for illustration, suppose an assessment intended to measure suturing ability actually measured sterile technique and completely ignored suturing. If an investigator trialed this in practice among third-year medical students and attending physicians, he would most likely find a significant difference favoring the attendings and might erroneously conclude that this evidence supports the validity of the proposed interpretation (i.e., suturing skill).

물론, 이 가상의 예에서, 우리는 어텐딩이 봉합과 멸균 기술 모두에서 의대생보다 낫다는 것을 알고 있습니다. 그러나 실제 삶에서, 우리는 [실제로 평가되고 있는 것]이 무엇인지에 대해서는 전지적 지식이 부족하다. 우리가 아는 것은 오로지 시험 점수이고, 동일한 점수는 어떤 수의 기본 구조를 반영하는 것으로 해석될 수 있다."교란confounding"의 문제(복수의 가능한 해석)는 그룹 간의 차이가 실제로 의도된 구조와 연결된다고 말하는 것을 불가능하게 만든다. 반면에 예상 차이를 확인하지 못하면 점수 무효의 강력한 증거가 될 수 있다.

Of course, in this hypothetical example, we know that attendings are better than medical students in both suturing and sterile technique. Yet, in real life, we lack the omniscient knowledge of what is actually being assessed; we only know the test scores—and the same scores can be interpreted as reflecting any number of underlying constructs. This problem of “confounding” (multiple possible interpretations) makes it impossible to say that any differences between groups are actually linked to the intended construct. On the other hand, failure to confirm expected differences would constitute powerful evidence of score invalidity.

쿡은 이 문제에 대한 확장된 토론과 설명을 제공했고, 다음과 같이 결론을 내렸다. "연구자들이 한계를 이해한다면, 그러한 분석을 수행하는 것은 잘못된 것이 아니다." … 이러한 분석은 [달라야 할 집단을 구별하지 못하거나] [차이가 없어야 할 곳에 차이를 발견하게 된다면] 가장 흥미로울 것이다. 가설상의 차이 또는 유사성의 확인은 타당성 주장에 거의 추가되지 않는다." [44]
Cook provided an extended discussion and illustration of this problem, concluding that “It is not wrong to perform such analyses, … provided researchers understand the limitations. … These analyses will be most interesting if they fail to discriminate groups that should be different, or find differences where none should exist. Confirmation of hypothesized differences or similarities adds little to the validity argument.” [44]

4번 실수. [가장 중요한 증거]보다는 [쉽게 접근할 수 있는 타당성 증거]에 초점을 맞춘다.
Mistake 4. Focus on the easily accessible validity evidence rather than the most important

검증 연구자들은 종종 쉽게 이용할 수 있거나 쉽게 수집할 수 있는 데이터에 초점을 맞춘다. 이 접근법은 이해할 수 있지만, 종종 한 소스에 대해 풍부한 유효성 증거가 보고되는 반면 동등하거나 더 중요할 수 있는 다른 소스에 대해서는 큰 증거 격차가 남아 있다. 그 예로는

  • [내부 구조]를 무시하면서 [내용 증거]를 강조하거나,
  • [평가자 간 신뢰성]이 더 중요할 때 [문항 간 신뢰도]를 보고하거나,
  • 다른 변수와의 관계에 대해 [독립적인 측정과의 상관관계]보다는 [전문가-초심자 비교를 보고하는 것]이 있다.

우리의 검토에서, 우리는 306/417(73%)의 연구가 전문가와 초보자의 비교를 보고했고, 이 중 138(45%)은 추가 증거를 보고하지 않았다는 것을 발견했다. 이에 비해 별도의 측정으로 관계를 보고한 경우는 128명(31%), 내용증거 보고는 142명(34%), 점수 신뢰성 보고는 163명(39%)에 불과했다. 이러한 보고 패턴의 모든 이유를 알 수는 없지만, 적어도 부분적으로 일부 요소(예: 전문가-노바이스 비교 데이터)를 쉽게 얻을 수 있기 때문일 것으로 추측한다.
Validation researchers often focus on data they have readily available or can easily collect. While this approach is understandable, it often results in abundant validity evidence being reported for one source while large evidence gaps remain for other sources that might be equally or more important. Examples include

  • emphasizing content evidence while neglecting internal structure,
  • reporting inter-item reliability when inter-rater reliability is more important, or
  • reporting expert-novice comparisons rather than correlations with an independent measure to support relationships with other variables.

In our review, we found that 306/417 (73%) of studies reported expert-novice comparisons, and 138 of these (45%) reported no additional evidence. By contrast, only 128 (31%) reported relationships with a separate measure, 142 (34%) reported content evidence, and 163 (39%) reported score reliability. While we do not know all the reasons for these reporting patterns, we suspect they are due at least in part to the ease with which some elements (e.g., expert-novice comparison data) can be obtained.

이것은 해석-사용 주장을 명확하고 완전하게 진술하고, 기존의 증거와 격차를 식별하고, 가장 중요한 격차를 해결하기 위해 증거 수집을 조정하는 것의 중요성을 강조한다.
This underscores the importance of clearly and completely stating the interpretation-use argument, identifying existing evidence and gaps, and tailoring the collection of evidence to address the most important gaps.

5번 실수. 점수 해석 및 사용보다는 평가도구에 집중
Mistake 5. Focus on the instrument rather than score interpretations and uses

위에서 언급한 바와 같이, 타당성은 평가도구의 속성이 아니라 점수, 해석 및 용도의 속성이다. [동일한 도구]를 [다양한 용도]에 적용할 수 있으며(PSA는 임상 검사 도구로 유용하지 않을 수 있지만, 전립선암 재발을 모니터링하는 데 계속 가치가 있다), 많은 타당성 증거는 상황에 따라 다르다. 예를 들어,

  • 점수 신뢰성은 서로 다른 모집단에 걸쳐 크게 변할 수 있으며 [44],
  • 외래 진료와 같은 한 학습 상황에 대해 설계된 평가는 병원이나 급성 치료 의료와 같은 다른 맥락과 관련되거나 관련되지 않을 수 있으며,
  • OSATS 글로벌 등급 척도와 같은 일부 도구는 새로운 작업에 대한 평가에 쉽게 적용할 수 있지만, OSATS 체크리스트와 같은 것은 그렇지 않다 [42]

물론 의과대학과 같이 한 맥락에서 수집된 증거는 레지던트 훈련과 같은 다른 맥락과 적어도 부분적인 관련성을 갖는 경우가 많지만, 증거가 언제 어느 정도 새로운 환경으로 전이가능한지transfer에 대한 결정은 판단의 문제이며, 이러한 판단은 잠재적으로 잘못될 수 있다.

As noted above, validity is a property of scores, interpretations, and uses, not of instruments. The same instrument can be applied to different uses (the PSA may not be useful as a clinical screening tool, but continues to have value for monitoring prostate cancer recurrence), and much validity evidence is context-dependent. For example,

  • score reliability can change substantially across different populations [44],
  • an assessment designed for one learning context such as ambulatory practice may or may not be relevant in another context such as hospital or acute care medicine, and
  • some instruments such as the OSATS global rating scale lend themselves readily to application to a new task while others such as the OSATS checklist do not [42].

Of course, evidence collected in one context, such as medical school, often has at least partial relevance to another context, such as residency training; but determinations of when and to what degree evidence transfers to a new setting are a matter of judgment, and these judgments are potentially fallible.

[해석-사용 주장]은 엄밀히 말하면 [의도된 적용의 맥락]을 명확히 하지 않고서는 적절하게 만들어질 수 없다. 연구자의 문맥과 최종 사용자의 문맥은 거의 항상 다르기 때문에 해석-사용 논쟁도 반드시 다르다. 연구자들은 [데이터 수집의 맥락]을 명확하게 명시함으로써 후속 작업의 활용을 촉진할 수 있다. 예를 들어, 학습자 그룹, 과제 및 의도된 사용/사용 범위, 그리고 자신의 연구 결과가 타당하게 적용될 수 있다고 믿는 범위를 제안함으로써.
The interpretation-use argument cannot, strictly speaking, be appropriately made without articulating the context of intended application. Since the researcher’s context and the end-user’s context almost always differ, the interpretation-use argument necessarily differs as well. Researchers can facilitate subsequent uptake of their work by clearly specifying the context of data collection—for example, the learner group, task, and intended use/decision—and also by proposing the scope to which they believe their findings might plausibly apply.

점수의 타당성에 대해 언급하는 것은 허용되지만, 위에 명시된 이유로, 그러한 점수의 의도된 해석과 사용, 즉 의도된 결정을 명시하는 것이 더 낫다. 우리는 연구자와 최종 사용자(교육자) 모두가 모든 검증 단계에서 해석과 사용을 명확히 할 것을 강력히 권장한다.
It is acceptable to talk about the validity of scores, but for reasons articulated above, it is better to specify the intended interpretation and use of those scores, i.e., the intended decision. We strongly encourage both researchers and end-users (educators) to articulate the interpretations and uses at every stage of validation.

6번 실수. 타당성 증거를 종합하거나 비평하지 못함
Mistake 6. Fail to synthesize or critique the validity evidence

우리는 종종 연구자들이 [증거를 합성하거나 평가하려는 시도 없이, 그저 보고하기만 하는 것]을 관찰했다. 교육자와 미래 연구자 모두 제안된 [해석-사용 주장]에 비추어 연구자가 [자신의 발견을 해석]하고, 이를 [이전 작업과 통합]하여 [현재 및 포괄적인 타당성 주장]을 만들고, [한계 및 지속적인 gap 또는 불일치를 식별]할 때 큰 이익을 얻는다. 교육자와 다른 최종 사용자도 증거에 익숙해져야 하며, 연구자의 주장을 확인하고 특정 상황에 대한 타당성에 대한 자체 판단을 공식화해야 한다.
We have often observed researchers merely report the evidence without any attempt at synthesis and appraisal. Both educators and future investigators greatly benefit when researchers interpret their findings in light of the proposed interpretation-use argument, integrate it with prior work to create a current and comprehensive validity argument, and identify shortcomings and persistent gaps or inconsistencies. Educators and other end-users must become familiar with the evidence as well, to confirm the claims of researchers and to formulate their own judgments of validity for their specific context.

7번 실수. 평가 개발을 위한 모범 사례 무시
Mistake 7. Ignore best practices for assessment development

평가 과제, 도구 및 절차의 개발, 개선 및 구현에 대한 책이 작성되었습니다 [23, 45–48]. 이러한 모범 사례를 고려하지 않고 평가를 개발하거나 수정하는 것은 경솔한 일일 것이다. 우리는 이것들을 요약할 수 없었지만, 우리는 건강 전문 교육자들에게 특별한 인상에 대한 두 가지 권고를 강조한다. 두 가지 모두 콘텐츠 증거(클래식 또는 5가지 소스 프레임워크 기준)와 일반화 추론(케인 기준)과 관련이 있다.
Volumes have been written on the development, refinement, and implementation of assessment tasks, instruments, and procedures [23, 4548]. Developing or modifying an assessment without considering these best practices would be imprudent. We could not begin to summarize these, but we highlight two recommendations of particular salience to health professions educators, both of which relate to content evidence (per the classic or five sources frameworks) and the generalization inference (per Kane).

첫째, [작업 또는 토픽의 표본]은 원하는 수행능력 영역을 나타내야 한다. 보건 전문가 평가에서 반복적으로 발견되는 것은 [일반화 가능한 기술]이란 것은 거의 존재하지 않는다는 것이다. 한 과제에 대한 성과는 다른 과제에 대한 성과를 예측하지 못한다[49, 50]. 따라서 평가는 시나리오, 사례, 과제, 스테이션 등의 충분히 많고 광범위한 샘플을 제공해야 한다.

First, the sample of tasks or topics should represent the desired performance domain. A recurrent finding in health professions assessment is that there are few, if any, generalizable skills; performance on one task does not predict performance on another task [49, 50]. Thus, the assessment must provide a sufficiently numerous and broad sample of scenarios, cases, tasks, stations, etc.

둘째, 평가 응답 형식은 [객관화]와 [판단 또는 주관성]의 균형을 이루어야 한다[51]. 체크리스트와 글로벌 등급의 장점과 단점은 오랫동안 논의되어 왔으며, 둘 다 장단점이 있는 것으로 밝혀졌다[52]. 체크리스트는 원하는 행동에 대한 구체적인 기준과 형성적 피드백을 위한 지침을 개략적으로 설명하므로 평가 과제에 익숙하지 않은 평가자가 종종 사용할 수 있다. 그러나 체크리스트의 "객관성"은 대체로 착각이다. [53] [관찰된 행동에 대한 정확한 해석]은 여전히 [과제와 관련된 전문지식]을 필요로 할 수 있으며, 평가자에게 등급을 이분화하도록 강요하는 것은 정보의 손실을 초래할 수 있다. 또한 각 특정 작업에 대해 새로운 점검표를 작성해야 하며, 해당 항목은 종종 임상 역량을 보다 정확하게 반영할 수 있는 조치를 희생하여 철저성을 보상한다. 대조적으로, 글로벌 등급은 사용하기 위해 더 큰 전문지식이 필요하지만 성능의 더 미묘한 뉘앙스를 측정하고 여러 보완적 관점을 반영할 수 있다. 글로벌 등급은 또한 OSATS의 경우와 마찬가지로 여러 작업에 걸쳐 사용하도록 설계될 수 있다. 최근의 체계적 검토에서, 우리는 여러 연구에서 평균을 낼 때 글로벌 등급보다 체크리스트에 대한 등급 간 신뢰성이 약간 더 높았지만, 글로벌 등급은 항목 간 및 스테이션 간 신뢰성이 더 높았다[52]. 정성적 평가는 일부 학습자의 속성을 평가하기 위한 또 다른 옵션을 제공한다[11, 54, 55].
Second, the assessment response format should balance objectification and judgment or subjectivity [51]. The advantages and disadvantages of checklists and global ratings have long been debated, and it turns out that both have strengths and weaknesses [52]. Checklists outline specific criteria for desired behaviors and guidance for formative feedback, and as such can often be used by raters less familiar with the assessment task. However, the “objectivity” of checklists is largely an illusion; [53] correct interpretation of an observed behavior may yet require task-relevant expertise, and forcing raters to dichotomize ratings may result in a loss of information. Moreover, a new checklist must be created for each specific task, and the items often reward thoroughness at the expense of actions that might more accurately reflect clinical competence. By contrast, global ratings require greater expertise to use but can measure more subtle nuances of performance and reflect multiple complementary perspectives. Global ratings can also be designed for use across multiple tasks, as is the case for the OSATS. In a recent systematic review, we found slightly higher inter-rater reliability for checklists than for global ratings when averaged across studies, while global ratings had higher average inter-item and inter-station reliability [52]. Qualitative assessment offers another option for assessing some learner attributes [11, 54, 55].

8번 실수. 평가도구에 대한 세부 정보 생략
Mistake 8. Omit details about the instrument

의도된 용도를 뒷받침하는 타당성 증거와 지역 요구와 관련된 평가를 식별하는 것은 실망스러운 일이지만, 평가가 적용을 허용하기에 충분한 세부 사항을 명시하지 않았다는 것을 발견하는 것은 좌절스러운 일이다. 주로 누락되는 중요한 사항에는 다음이 있다.

  • 평가도구 문항의 정확한 워딩,
  • 채점 기준(rubric)
  • 학습자 또는 평가자에게 제공되는 지침,
  • 스테이션 배치에 대한 설명(예: 절차적 작업에 필요한 자료, 표준화된 환자 접견에서 참가자 교육) 
  • 사건의 순서. 

대부분의 연구자들은 다른 사람들이 그들의 창작물을 사용하고 그들의 출판물을 인용하기를 원한다. 
필요한 세부 정보가 보고될 경우 이 문제가 발생할 가능성이 훨씬 높습니다. 온라인 부록은 기사 길이가 문제인 경우 인쇄 출판에 대한 대안을 제공합니다.

It is frustrating to identify an assessment with relevance to local needs and validity evidence supporting intended uses, only to find that the assessment is not specified with sufficient detail to permit application. Important omissions include

  • the precise wording of instrument items,
  • the scoring rubric,
  • instructions provided to either learners or raters, and
  • a description of station arrangements (e.g., materials required in a procedural task, participant training in a standardized patient encounter) and
  • the sequence of events.

Most researchers want others to use their creations and cite their publications; this is far more likely to occur if needed details are reported. Online appendices provide an alternative to print publication if article length is a problem.

9번 실수. 시뮬레이터/평가 기구의 가용성이 평가를 주도하도록 합니다.
Mistake 9. Let the availability of the simulator/assessment instrument drive the assessment

교육자로서, 우리는 너무 자주 [수행능력 기반 평가]가 임상실습의 목표와 더 잘 일치함에도 불구하고, [임상실습 말 평가를 위해 기성 MCQ 시험을 보는 것]과 같처럼 [평가 도구의 가용성]이 평가 프로세스를 끌어나가게 방치한다. 이 문제는 시뮬레이터의 가용성이 교육 프로그램을 설계하고 교육 요구에 맞는 최적의 시뮬레이션을 선택하는 것과 반대로 교육 프로그램을 구동할 수 있는 시뮬레이션 기반 평가와 더욱 복잡하다[56]. 우리는 [우리가 가르치고 있는 구조]를 [그 구조를 가장 잘 평가하는 시뮬레이터 및 평가 도구]와 일치시켜야 한다.
Too often as educators, we allow the availability of an assessment tool to drive the assessment process, such as taking an off-the-shelf MCQ exam for an end-of-clerkship assessment when a performance-based assessment might better align with clerkship objectives. This issue is further complicated with simulation-based assessments, where the availability of a simulator may drive the educational program as opposed to designing the educational program and then choosing the best simulation to fit the educational needs [56]. We should align the construct we are teaching with the simulator and assessment tool that best assess that construct.

10번 실수. 평가도구를 '타당화된'이라고 명명
Mistake 10. Label an instrument as validated

계측기를 유효하다고 레이블링하는 데는 세 가지 문제가 있습니다.

  • 첫째, 타당성은 도구가 아니라 점수, 해석, 결정의 속성이다.
  • 둘째, 타당성은 정도의 문제이다. 예스냐 아니냐의 결정이 아니다.
  • 셋째, 타당화는 엔드포인트가 아닌 프로세스입니다.

Validated라는 단어는 [프로세스가 적용되었다는 것]을 의미할 뿐이며, 프로세스에 대한 세부 정보를 제공하지 않으며 경험적 소견의 크기나 방향(지지 또는 반대)을 나타내지 않는다.
There are three problems with labeling an instrument as validated.

  • First, validity is a property of scores, interpretations, and decisions, not instruments.
  • Second, validity is a matter of degree—not a yes or no decision.
  • Third, validation is a process, not an endpoint. 

The word validated means only that a process has been applied; it does not provide any details about that process nor indicate the magnitude or direction (supportive or opposing) of the empiric findings.

시뮬레이션 기반 평가의 미래
The future of simulation-based assessment

우리는 시뮬레이션 기반 평가의 미래를 아는 척하지 않지만, 실현되기를 바라는 여섯 가지 야심찬 개발로 결론을 내린다
Although we do not pretend to know the future of simulation-based assessment, we conclude with six aspirational developments we hope come to pass.

1.우리는 일련의 학습자 평가의 일환으로 시뮬레이션 기반 평가를 더 많이 사용할 수 있기를 바란다. 시뮬레이션 기반 평가는 그 자체로 목표가 되어서는 안 되지만 일반적으로 더 빈번한 평가를 예상하고 시뮬레이션이 중요한 역할을 할 것으로 믿는다. 양식 선택은 먼저 주어진 상황, 즉 학습 목표, 학습자 수준 또는 교육적 맥락에서 최선의 평가 접근법이 무엇인지 고려해야 한다. 특히 조건과 내용의 표준화가 필요한 기술 평가에서 다양한 형태의 시뮬레이션이 해답이 될 수 있다.

1.We hope to see greater use of simulation-based assessment as part of a suite of learner assessments. Simulation-based assessment should not be a goal in and of itself, but we anticipate more frequent assessment in general and believe that simulation will play a vital role. The choice of modality should first consider what is the best assessment approach in a given situation, i.e., learning objective, learner level, or educational context. Simulation in its various forms will often be the answer, especially in skill assessments requiring standardization of conditions and content.

2.우리는 시뮬레이션 기반 평가가 [테크놀로지보다는 교육적 필요성에 더 명확하게 초점]을 맞추기를 바란다. 값비싼 마네킹과 가상현실 작업 트레이너가 역할을 할 수도 있지만 족발, 펜로즈 배수구, 나무 말뚝, 판지 마네킹은 더 많은 빈도와 더 적은 제약으로 사용될 수 있기 때문에 실제로 더 실용적인 유용성을 제공할 수 있다. 예를 들어, 이러한 저가 모델은 전용 시뮬레이션 센터보다는 가정이나 병동에서 사용할 수 있다. 고부가가치, 비용 의식이 높은 교육의 필요성을 고려함에 따라[57] 혁신적인 교육자들이 저기술 솔루션을 적극적으로 모색할 것을 권장한다.
2.
We hope that simulation-based assessment will focus more clearly on educational needs and less on technology. Expensive manikins and virtual reality task trainers may play a role, but pigs feet, Penrose drains, wooden pegs, and cardboard manikins may actually offer more practical utility because they can be used with greater frequency and with fewer constraints. For example, such low-cost models can be used at home or on the wards rather than in a dedicated simulation center. As we consider the need for high-value, cost-conscious education [57], we encourage innovative educators to actively seek low-tech solutions.


3. 처음 두 가지를 바탕으로, 우리는 비용이 적게 들고 덜 정교하며 덜 거슬리고 덜 거슬리는 저부담 평가가 시뮬레이션과 작업장에서 모두 더 다양한 맥락에서 더 자주 수행되기를 바란다. 슈워츠와 반 데르 블류텐이 제안했듯이, 이 모델은 시간이 지남에 따라 아무리 잘 설계되었더라도 어떤 단일 평가보다 학습자의 완전한 그림을 그릴 것이다.
3.Building off the first two points, we hope to see less expensive, less sophisticated, less intrusive, lower-stakes assessments take place more often in a greater variety of contexts, both simulated and in the workplace. As Schuwirth and van der Vleuten have proposed [58], this model would—over time—paint a more complete picture of the learner than any single assessment, no matter how well-designed, could likely achieve.

4.새로운 평가 도구가 더 적게 생성되고 기존 도구를 지원하고 적용하기 위해 더 많은 증거를 수집하기를 바랍니다. 우리는 새로운 도구의 창조를 장려할 수 있는 힘을 높이 평가하지만, 연구자들이 [더 작은 집합의 유망한 도구]에 대해 타당성 증거를 확장하기 위해 노력을 모으고, [다른 맥락에서 그러한 도구를 평가]하여 [증거 공백을 연속적으로 메워간다면], 이 분야가 점점 더 빠르게 발전할 것이라고 믿는다. 
4.
We hope to see fewer new assessment instruments created and more evidence collected to support and adapt existing instruments. While we appreciate the forces that might incentivize the creation of novel instruments, we believe that the field will advance farther and faster if researchers pool their efforts to extend the validity evidence for a smaller subset of promising instruments, evaluating such instruments in different contexts, and successively filling in evidence gaps.

5.우리는 평가의 결과 및 시사점을 알려주는 더 많은 증거를 보기를 바란다. 이것은 아마도 가장 중요한 증거 자료일 것이지만, 가장 자주 연구되지 않는 것 중 하나이다. 평가의 결과에 대한 연구를 위한 제안이 최근에 발표되었다[27].
5.
We hope to see more evidence informing the consequences and implications of assessment. This is probably the most important evidence source, yet it is among the least often studied. Suggestions for the study of the consequences of assessment have recently been published [27].

6.마지막으로, 우리는 해석-사용 주장의 더 빈번하고 명시적인 사용을 볼 수 있기를 바란다. 위에서 언급한 바와 같이, 이 초기 단계는 어렵지만 의미 있는 검증에 매우 중요하다.
6.
Finally, we hope to see more frequent and more explicit use of the interpretation-use argument. As noted above, this initial step is difficult but vitally important to meaningful validation.

 

 


Adv Simul (Lond). 2016 Dec 7;1:31. doi: 10.1186/s41077-016-0033-y. eCollection 2016.

Validation of educational assessments: a primer for simulation and beyond

Affiliations collapse

Affiliations

11Mayo Clinic Online Learning, Mayo Clinic College of Medicine, Rochester, MN USA.

22Office of Applied Scholarship and Education Science, Mayo Clinic College of Medicine, Rochester, MN USA.

33Division of General Internal Medicine, Mayo Clinic College of Medicine, Mayo 17-W, 200 First Street SW, Rochester, MN 55905 USA.

44Department of Medicine, University of British Columbia, Vancouver, British Columbia Canada.

PMID: 29450000

PMCID: PMC5806296

DOI: 10.1186/s41077-016-0033-y

Free PMC article

Abstract

Background: Simulation plays a vital role in health professions assessment. This review provides a primer on assessment validation for educators and education researchers. We focus on simulation-based assessment of health professionals, but the principles apply broadly to other assessment approaches and topics.

Key principles: Validation refers to the process of collecting validity evidence to evaluate the appropriateness of the interpretations, uses, and decisions based on assessment results. Contemporary frameworks view validity as a hypothesis, and validity evidence is collected to support or refute the validity hypothesis (i.e., that the proposed interpretations and decisions are defensible). In validation, the educator or researcher defines the proposed interpretations and decisions, identifies and prioritizes the most questionable assumptions in making these interpretations and decisions (the "interpretation-use argument"), empirically tests those assumptions using existing or newly-collected evidence, and then summarizes the evidence as a coherent "validity argument." A framework proposed by Messick identifies potential evidence sources: content, response process, internal structure, relationships with other variables, and consequences. Another framework proposed by Kane identifies key inferences in generating useful interpretations: scoring, generalization, extrapolation, and implications/decision. We propose an eight-step approach to validation that applies to either framework: Define the construct and proposed interpretation, make explicit the intended decision(s), define the interpretation-use argument and prioritize needed validity evidence, identify candidate instruments and/or create/adapt a new instrument, appraise existing evidence and collect new evidence as needed, keep track of practical issues, formulate the validity argument, and make a judgment: does the evidence support the intended use?

Conclusions: Rigorous validation first prioritizes and then empirically evaluates key assumptions in the interpretation and use of assessment scores. Validation science would be improved by more explicit articulation and prioritization of the interpretation-use argument, greater use of formal validation frameworks, and more evidence informing the consequences and implications of assessment.

Keywords: Content Evidence; Lumbar Puncture; Validation Framework; Validity Argument; Validity Evidence.

테크놀로지-강화 평가: 오타와 합의문과 권고(Med Teach, 2022)
Technology enhanced assessment: Ottawa consensus statement and recommendations
Richard Fullera, Viktoria C. T. Goddardb, Vishna D. Nadarajahc , Tamsin Treasure-Jonesd, Peter Yeatese , Karen Scottf , Alexandra Webbg, Krisztina Valterh and Eeva Pyoralai 

 

 

배경
Background

2011년 이전의 오타와 기술 강화 평가(TEA) 합의 성명 이후, 기술 향상은 평가 관행을 혁신할 수 있는 이전에는 상상할 수 없었던 가능성을 실현했습니다(Amin et al. 2011). 테크놀로지와 교육의 인터페이스가 직원, 학습자 및 기관을 연결하는 학습, 교육 및 평가에 대한 새로운 접근 방식을 개발함에 따라 흥미로운 새로운 지평이 계속 드러나고 있다(Alexander et al. 2019). 이러한 연결성은 점점 더 쉽게 액세스할 수 있는 '빅 데이터'와 결합되어 개인화된 평가와 시기적절한 피드백을 제공할 수 있는 실질적인 기회를 제공합니다.
Since the previous Ottawa Technology Enhanced Assessment (TEA) consensus statement of 2011, technology enhancements have realised previously unimagined possibilities to innovate assessment practices (Amin et al. 2011). Exciting new horizons continue to be revealed as the interface of technology and education develops new approaches to learning, teaching, and assessing, connecting staff, learners, and institutions (Alexander et al. 2019). This connectivity, coupled with increasingly accessible ‘big data,’ presents real opportunities to deliver personalised assessment and timely feedback.

그러나 평가에서 (새로운) 테크놀로지를 무비판적으로 채택하는 것은 (평가 보안 및 시스템 장애에 걸친 우려에서 학문적 무결성을 포함하여 학습자와 교수진에 미치는 영향에 이르기까지) 상당한 위험을 초래한다(Andreou et al. 2021). 혁신의 기회 또는 테크놀로지의 오용 및 잘못된 적용 가능성(예: 의사 결정을 촉진하기 위한 분석 사용)은 교육이 제공되는 환경에서 학습자, 교수진 및 조직에 복잡한 [학문적 및 윤리적 딜레마]를 가져옵니다.
However, uncritical adoption of (new) technologies in assessment brings substantial risk, from concerns spanning assessment security and systems failure through to their impact on learners and faculty, including academic integrity (Andreou et al. 2021). Opportunities for innovation, or the potential for misuse and misapplication of technology (for example, the use of analytics to drive decision making), bring complex academic and ethical dilemmas for learners, faculty, and organisations in settings where education is delivered.

우리는 테크놀로지를 비교적 '새로운' 구인construct으로 인식할 수도 있지만, 역사적으로 [사용 및 경험을 통해 테크놀로지를 적용할 수 있는 '규칙'을 생성하는 동시에, 테크놀로지 업그레이드 및 혁신의 역동적이고 가속화하는 지형과 씨름하면서] 혁신은 교육에 도전해 왔습니다. 테크놀로지 변화의 속도는 교육 개혁보다 훨씬 더 빠르며, 영원한 '따라잡기catch up' 감각을 만들어낸다. 이러한 지속적인 도전은 이러한 변화와 함께 교육자들이 평가 관행을 혁신하고자 할 때 '정치, 교육학, 실천'의 3원적 인터페이스에 반영된다(Shum and Luck in 2019).
Whilst we might recognize technology as a relatively ‘new’ construct, innovations throughout history have challenged education as we generate ‘rules’ for its application through use and experience, whilst grappling with an increasingly dynamic, accelerating landscape of technology upgrades and innovation. The pace of change in technology continues to be much quicker than educational reform, creating a perpetual sense of ‘catch up.’ This continual challenge is reflected in the triadic interface of ‘politics, pedagogy, and practices’ as educators seek to innovate assessment practices alongside these changes (Shum and Luckin 2019).

2020년 오타와 회의 이후 코로나19 범유행으로 인한 글로벌 혼란이 사회 모든 부문에 영향을 미치고 있다. 교육은 학습자의 세대 간 집단(학전부터 지속적인 전문적 발달까지)에 영향을 미쳐 기관이 원격/온라인 교육을 신속하게 채택하고 적응해야 한다(아리스토브니크 외 2020; 클렐란드 외 2020; 고든 외 2020; 라힘 2020; 파로키 외 2021; 그래프톤-클라케 외 2021). 평가는 특별한 과제를 보았지만 보건 전문 교육(HPE)에서 창의적이고 혁신적인 솔루션을 제공하기 위해 테크놀로지를 채택했다(Fuller et al. 2020; Hegazy et al. 2021). 예를 들어, TEA에서 '온라인 OSCE'(객관적 구조 임상 검사)(Hytönen et al. 2021; Roman et al. 2022)와 같은 새로운 담론이 등장했지만, 이는 우수한 평가 관행과 OSCE의 목적에 대한 정의나 정렬이 부족할 수 있다(Boursicot et al. 2020, 2021). 학습 분석과 같은 다른 제안된 기술 솔루션은 상당한 잠재력을 보여주지만, 현재 중요한 증거 기반이 부족하다(Sonderlund et al. 2019; Archer and Prinslo 2020). 결과적으로, 교육을 혁신하기 위한 테크놀로지 사용을 뒷받침하기 위해 더 큰 연구가 필요하다는 주장이 제기되었고(Ellaway et al. 2020), 이것은 이 새로워진 TEA 합의문을 탐구하는 데 유용한 배경을 제공한다.
Since the Ottawa conference of 2020, global disruption caused by the Covid-19 pandemic continues to impact every sector of society. Education has affected a cross-generational cohort of learners (from pre-school to continuing professional development), necessitating institutions to rapidly adopt and adapt to remote/online education (Aristovnik et al. 2020; Cleland et al. 2020; Gordon et al. 2020; Rahim 2020; Farrokhi et al. 2021; Grafton-Clarke et al. 2021). Assessment has seen particular challenges but has embraced technology to deliver creative, innovative solutions in Health Professions Education (HPE) (Fuller et al. 2020; Hegazy et al. 2021). Whilst new discourses have emerged in TEA, for example, the ‘online OSCE’ (Objective Structured Clinical Examination) (Hytönen et al. 2021; Roman et al. 2022), these may lack definition or alignment to good assessment practice and the purpose of the OSCE (Boursicot et al. 2020, 2021). Other proposed technology solutions, such as learning analytics show significant potential, but currently lack a critical evidence base (Sonderlund et al. 2019; Archer and Prinsloo 2020). Consequently, calls have emerged for a greater scholarship to underpin the use of technology to innovate education (Ellaway et al. 2020), and this provides a helpful backdrop to explore this refreshed TEA consensus statement.

과거를 통해 미래를 볼 수 있을까? 2011년 컨센서스와 새로운 10년을 위한 새로운 프레임워크로부터의 교훈
Looking back to the future? Lessons from the 2011 consensus and a refreshed framework for a new decade

이전의 Ottawa TEA 컨센서스에 의해 예측된 많은 [테크놀로지 혁신]은 이제 평가의 게이미피케이션에서 증가하는 추세와 함께 일상적인 교육 관행(가상 학습 환경, 컴퓨터 기반 평가, 시뮬레이션 및 마네킹 포함)으로 인식될 수 있다(Wang et al. 2016; Prochazkova et al. 2019; Tsoy et al. 2019; Tu.tie et al. 2020; Roman et al. 2022). 또한 지난 10년간 [모바일 기술]의 급속한 확산은 학습자가 임상 작업장에서 정보를 검색할 수 있는 기회를 제공했지만 학생, 임상 교사, 의료 전문가, 환자와 보호자 사이에 긴장을 조성했다(Scott et al. 2017; Harrison et al. 2019; Folger et al. 2021).
Many of the technology innovations forecasted by the previous Ottawa TEA consensus may now be perceived as everyday education practice (including virtual learning environments, computer-based assessment, simulation, and mannequins) with growing trends in the gamification of assessment (Wang et al. 2016; Prochazkova et al. 2019; Tsoy et al. 2019; Tuti et al. 2020; Roman et al. 2022). Furthermore, the rapid spread of mobile technology over the past decade has provided learners opportunities to retrieve information in the clinical workplace but has also created tensions between students, clinical teachers, health care professionals, and patients and carers (Scott et al. 2017; Harrison et al. 2019; Folger et al. 2021).

그러나 [자원과 테크놀로지의 한계]는 [일부 기관이 새로운 테크놀로지를 필요로 하는 교수, 학습 및 평가 관행을 구현할 수 없음을 의미함]을 인식하는 것이 중요하다. 게다가, 모든 학생들이 최신 테크놀로지에 접근할 수 있는 것도 아니다. 이러한 요인들은 테크놀로지 강화 학습에 대한 접근성을 매개로 이미 고착화된 [저자원 환경과 고자원 환경] 간의 격차를 확대한다(Aristovnik et al. 2020). 이전의 합의 이후, 더 넓은 사회에서 등장한 많은 광범위한 '하드웨어' 솔루션은 학습을 평가하는 방법을 근본적으로 변화시켰다. 예를 들면 OSCE(Judd 등 2017; Daniels 등)에서의 태블릿 기반 표시와 직장에서의 스마트폰 지원 평가(Mooney 등 2014; Joynes 및 Fuller 2016)와 같은 것이 있다.

However, it is important to recognise that resource and technology limitations mean that some institutions have been unable to implement teaching, learning, and assessment practices that require new technology. In addition, not all students have access to the latest technology. These factors widen an already established disparity between lower and higher-resourced environments through access to technology-enhanced learning (Aristovnik et al. 2020). Since the previous consensus, many of the broader ‘hardware’ solutions that have emerged in wider society have radically changed how we can assess learning, e.g. tablet-based marking in OSCEs (Judd et al. 2017; Daniels et al. 2019) and smartphone assisted assessment in the workplace (Mooney et al. 2014; Joynes and Fuller 2016).

[테크놀로지 '도구tools']에 초점을 맞추는 것은 유혹적이지만,이전 오타와 프레임워크의 핵심 개념 중 일부는 구현과 연구 질문의 최전선에 남아 있으며, 특히 다음과 관련된다.

  • 온라인 환경에서 [기존 평가 과제와 관행을 복제]하기 위한 기술 적용('변환transmediation') 또는
  • 시험 및 채점 [속도를 높이는 테크놀로지-지원 평가 도구 사용]의 효율성 향상('보조기구prosthesis'). 

Whilst it is tempting to explore a focus on technology ‘tools,’ some of the key concepts from the previous Ottawa framework remain at the forefront of implementation and research questions, particularly relating

  • to the application of technology to replicate the existing assessment assignments and practices in an online environment (‘transmediation’) or
  • to the efficiency in the use of technology-assisted assessment tools that speed up examinations and grading (‘prosthesis’).

TEA는 실생활에서 필요한 지식, 기술 및 행동의 조합 또는 학생의 역량에 대한 진정한authentic 평가를 제공하기 위해 제안되었다(Gulikers et al. 2004). 그러나 [의도하지 않은 구조에 대한 의도하지 않은 평가] 또는 [결과적으로 학습자의 참여와 행동에 영향을 미치는 실제 관행으로부터의 deviation]으로 인해서, [TEA를 통한 진정한 평가]에 대한 위험은 여전히 높다. 2011년 프레임워크는 또한 고비용 및 충실도 평가 기술 관행의 일부 과제에 초점을 맞췄습니다. 특히 학습자와 기관 간의 디지털 불평등의 출현과 이해로 인해 현재 더욱 어려워지고 있습니다(UNESCO 2018). 10년간의 혁신과 연구에도 불구하고 평가의 진실성과 학습의 영향을 둘러싼 몇 가지 핵심 질문이 우리의 생각의 최전선에 남아 있다.
TEA has been suggested to provide authentic assessments (Gulikers et al. 2004) of students' competencies or combinations of knowledge, skills, and behaviours required in real life. However, the risks to authentic assessment through TEA remain high, either through unintentional assessment of unintended constructs, or deviation from real-life practices that consequently affect learner engagement and behaviours. The 2011 framework also focused on some of the challenges of high cost and high-fidelity assessment technology practices—now particularly challenged by the emergence, and understanding, of digital inequity amongst learners and institutions (UNESCO 2018). Despite ten years of innovation and scholarship, some of the key questions posed, surrounding the authenticity of assessment and the impact of learning remain at the forefront of our thinking.

이러한 교훈을 바탕으로, 이 새로워진 프레임워크는 평가가 이루어지는 더 넓은 환경에서 평가, 기술 및 교육 관행에 걸친 광범위한 범위에서 도출된다. 2010-2020년(Auxier et al. 2019)을 형성한 확립된 (교육) 테크놀로지과 능동적 학습의 실천을 뒷받침하는 새로운 테크놀로지 및 이론을 모두 반영한다.
Drawing on these lessons, this refreshed framework draws from broad scoping across assessment, technology, and educational practices in the wider environment in which assessment takes place. It draws on a reflection of both the established (educational) technology that shaped the 2010–2020 decade (Auxier et al. 2019), emergent technologies, and theories that underpin the practice of active learning.

2020년 오타와 컨퍼런스 및 후속 공개 컨설팅 및 워크숍의 직접 워크숍 피드백에 민감한 합의 프레임워크는 다음의 세 가지 핵심 단계로 나뉜다.

  • (1) 기술 채택 준비,
  • (2) 평가 라이프사이클에 적용(대표적 사례 연구 포함)
  • (3) TEA의 평가와 확산을 위한 프로세스 

Sensitised by feedback from in-person workshops in the 2020 Ottawa Conference and subsequent open consultation and workshops, the consensus framework is divided into three key stages, spanning

  • (1) readiness for technology adoption,
  • (2) its application to the assessment lifecycle (supported by illustrative case studies), and
  • (3) processes for evaluation and dissemination of TEA.

1단계: 평가 개선을 위한 기술 채택 준비 상태 평가
STAGE 1: Assessing readiness to adopt technology to enhance assessment

기술은 최근 HPE의 학습 및 평가에 대한 많은 COVID 관련 과제에 대한 공통적인 해결책으로, 학회 및 저널 플랫폼에 걸쳐 개별 기관 반응을 보여주는 전체 범위의 학술 커뮤니케이션(예: Khalaf et al. 2020; Jaap et al. 2021)이 있다. 그러나 다른 저자들은 코로나 이전에 존재했던 교육 관행에 대한 많은 우려가 이러한 접근 방식을 통해 해결될 가능성이 낮다고 강조했다(Ellaway et al. 2020). 게다가, 테크놀로지는 형편없는 평가 관행의 영향과 위험을 증가시킬 수 있다. 자동화된 프로세스는 '버튼을 누르면' 상당한 오류가 발생할 수 있으며(예: 부정확한 점수 보고를 통해) 평가 프로세스 주변의 학습자와 교직원의 신뢰에 장기적인 손상을 줄 수 있습니다.
Technology has been a common solution to many of the recent COVID-related challenges to learning and assessment in HPE, with a whole range of scholarly communications illustrating individual institutional responses across conference and journal platforms (e.g. Khalaf et al. 2020; Jaap et al. 2021). However, other authors have highlighted that many of the concerns around educational practice that existed pre-COVID are unlikely to have been resolved through these approaches (Ellaway et al. 2020). Moreover, technology may increase the impact and risk of poor assessment practises. Automated processes may ‘at the push of a button’ generate a substantial error (e.g. through inaccurate score reporting), causing long-lasting damage to learner and faculty trust around assessment processes.

이전 섹션에서 확인한 바와 같이, 평가에서 테크놀로지를 무비판적으로 도입한다는 것은 [잠재적 편익]이 다양한 [잠재적 단점(학업적, 재정적, 제도적)]으로 상쇄될 수 있다는 것을 의미한다. 테크놀로지 도입에 있어 가장 중요한 것은 '평가'를 통해 차선의 평가 관행을 파악하고 해결할 필요가 있다는 것입니다.
As identified in the previous section, non-critical adoption of technology in assessment means potential benefits could be offset by a range of potential disadvantages (academic, financial, and institutional). Critical to the adoption of technology is the need to ‘assess assessment,’ to ensure that any sub-optimal assessment practices are identified and resolved.

이 오타와 합의의 핵심 권고 사항 중 하나는 '기술은 제쳐두고' TEA와 관련된 네 가지 중요한 영역을 조사하는 것입니다.

  • 기존 평가 관행의 품질
  • TEA 도입의 목적
  • 디지털 형평성에 관한 당면 과제 
  • 테크놀로지를 채택할 수 있는 제도적 역량

One of the key recommendations of this Ottawa consensus is to ‘put aside the technology’ and investigate four critical areas associated with TEA:

  • The quality of existing assessment practice
  • The purpose of introducing TEA
  • Engagement with digital equity challenges
  • Institutional capacity to adopt technology

목적에 맞는 평가?
Assessment fit for purpose?

[기존 평가 프로세스에 대한 검토는 TEA 채택 준비의 핵심]이며, 다음에 초점을 맞춰야 합니다. 

  • 단순히 평가 '도구'뿐만 아니라,
  • 보다 광범위한 평가 프로그램과 그것의 이론적 기반
  • 평가 제공에 사용된 기존 테크놀로지(예: 강의실 데스크톱 또는 개인용 노트북 컴퓨터 또는 모바일 장치) 를 포함하여
  • 평가를 수행할 수 있는 환경(캠퍼스/임상 실습/학습자의 개인 공간)

A review of existing assessment processes is central to readiness for adoption of TEA, and should focus

  • not just on assessment ‘tools,’
  • but the wider programme of assessment, its theoretical underpinning and
  • environments in which assessment may be undertaken (campus/clinical practice/learners’ personal space)
  • including any existing technology used to deliver assessment (e.g. classroom desktop or personal laptop computers, or mobile devices).

광범위한 전문가, 목적 적합 규격 및 지침이 이 평가 검토를 지원해야 한다(Norcini et al. 2018; Boursicot et al. 2021; Heeneman et al. 2021; Torre et al. 2021). 시작시에 '평가를 평가하는 것assessing assessment'는 평가가 기존 형식에서 목적에 적합한지 확인하는 데 도움이 될 뿐만 아니라 테크놀로지 채택 전에 해결할 수 있는 잠재적 함정을 식별하는 데 도움이 된다. 또한 평가 관행의 개선을 탐구할 기회를 마련하거나 이 검토의 다음 권고사항에 중심이 될 새로운 개발을 식별한다.

A broad range of expert, fit-for-purpose specifications and guidance should support this assessment review (Norcini et al. 2018; Boursicot et al. 2021; Heeneman et al. 2021; Torre et al. 2021). ‘Assessing assessment’ at the outset helps not just ensure that assessment is fit for purpose in its existing format but identifies potential pitfalls that can be resolved in advance of technology adoption. It also establishes opportunities to explore the enhancement of assessment practices or identifies new developments that will be central to the next recommendation of this review.

TEA를 채택하는 목적은 무엇입니까?
What is the purpose of adopting TEA?

TEA 도입에 앞서 가장 중요한 질문은, 모든 교육 테크놀로지와 마찬가지로, 이 테크놀로지가 학생들의 학습과 이를 지원하는 교수진의 능력을 어느 정도까지 향상시킬 것인가이다(Fuller and Joynes 2015). TEA의 목적이 단지 동일한 평가의 종이 버전을 '대체'하는 것이라면, 평가가 기술에 의해 '향상'될 것이라는 주장은 이미 잃어버린 것과 마찬가지다. 또한 비용이 많이 드는 실수이거나, 더 나쁜 것일 가능성이 높으며, '허영 프로젝트'로 인식될 경우 평판 훼손이 더 오래 지속된다. 대신, 교육자로서, 우리는 과정 내용, 학습 활동, 제안된 평가 및 원하는 과정 결과 간의 정렬을 살펴봄으로써 모든 잘 이론화된 교육 발전을 안내하는 원칙으로 돌아가야 한다(Biggs and Tang 2011; Villaroel et al. 2019). 학습자들은 그들이 배우기 위해 하는 일에 의미를 부여한다. 따라서 교수진은 특정 평가 방법을 구현하는 데 초점을 맞추기보다는 학습 성과 달성을 촉진하는 학습 활동과 평가 과제를 의도적으로 설계해야 한다.
The overriding question ahead of the introduction of TEA should be, as with all educational technology, to what extent will the technology enhance students’ learning and faculty’s ability to support this? (Fuller and Joynes 2015). If the purpose of TEA is only to ‘replace’ a paper version of the same assessment, the argument that the assessment would be ‘enhanced’ by technology is already lost, and could likely be an expensive mistake or worse, have longer lasting reputational damage if perceived as a ‘vanity project.’ Instead, as educators, we need to return to the principles that guide all well-theorised educational developments, looking at alignment between course content, learning activities, the proposed assessment, and the desired outcomes of the course (Biggs and Tang 2011; Villarroel et al. 2019). Learners build meaning on what they do to learn. Thus, faculty should intentionally design learning activities and assessment tasks that foster the achievement of learning outcomes, rather than focussing on implementing specific assessment methods.

[교육학에서 informed된 접근 방]식을 사용하면 팀은 테크놀로지 투자가 (일회성 맞춤형 요소든 프로그램적 접근 방식이든) 자신의 코스에 가장 유의미한 부분이 어딜지 살펴볼 수 있습니다. 그럼에도 불구하고, 단편적인 투자는 거의 지속 가능하지 않으며 학습자와 교수진이 커리큘럼의 단일 영역에서 여러 도구를 사용하는 방법을 배우도록 요청받을 위험이 있다는 점에 주목할 필요가 있다. 고부담 평가를 수반하는 경우, 학습자에게 상당한 인지 부하로 이어질 수 있다(Davies et al. 2010). 새롭고 유망한 테크놀로지가 등장할 때, 평가를 강화하기 위해 이를 도입하려는 결정은 거의 즉시 이루어지지 않으며, 잠재적으로 혁신을 지연시킨다. 그러나 동일한 우려 사항은, (테크놀로지가) 단순히 평가 측면에서 수행되고 있는 것을 '대체'하는 것을 넘어 practice를 발전시키는 데 실패했다는 것입니다.
Using an approach informed by pedagogy will enable teams to look at where investment in technology will be the most meaningful to their courses, either as a one-off bespoke element or as a programmatic approach. Nevertheless, it is worth noting that piecemeal investment is rarely sustainable and risks learners and faculty being asked to learn how to use multiple tools in a single area of a curriculum. If they involve high-stakes assessments, this can lead to a significant cognitive load on learners (Davies et al. 2010). When new and promising technology emerges, decisions to introduce it to enhance assessment are rarely immediate, potentially delaying innovation. However, of equal concern is a failure to evolve practices beyond merely ‘replacing’ what is, and has always been, done in terms of assessment.

주어진 기관에서 TEA의 목적을 고려할 때, 주목할 만한 교육적 설계를 위한 더 넓은 기회가 있다. 소규모 또는 대규모 평가 변경을 가져올 때, 예를 들어, [몰입형 설계의 도입]과 심지어 [평가의 공동 제작]을 통한 과정의 광범위한 전환 측면에서 이점을 활용할 수 있으므로 교육자와 학습자 모두가 그 결과에 투자하고 참여할 수 있습니다. 이것은 학습자들로 하여금 [평가가 자신들과 '함께' 하는 것이 아니라 '그들에게' 행해지는 것이라고 느끼게 만드는] 것을 줄여준다. 평가에 테크놀로지를 도입함으로써, 평가 프로세스를 통해 수집된 데이터를 사용하여 [어떤 학습과 피드백이 이루어지고 있는지 살펴볼 수 있는 기회]도 강화됩니다. 그럼에도 불구하고 이것은 TEA 도입의 긍정적인 부산물이지 도입의 동력이라고 보아서는 안 된다.
Within considerations of the purpose of TEA in any given institution, there are wider opportunities for an educational design that are worth noting. When bringing in either small or large-scale assessment change, it is possible to leverage benefits from the process in terms of wider course transformation through, for example, the introduction of immersive design and even co-production of assessment so that both educators and learners are invested and engaged with the result (Holmboe 2017; Cumbo and Selwyn 2022). This moves away from the perennial challenge of learners feeling that assessment is something that is done ‘to’ them, rather than done ‘with’ them. Through the introduction of technology in assessment, there are also enhanced opportunities to use the data which are gathered through the assessment processes to explore what learning and feedback is taking place. Nevertheless, this should be seen as a positive by-product of the introduction of TEA and not the driving force for its introduction.

TEA 프로세스를 개발하는 데 존재하는 광범위한 기회 내에서, 우리는 또한 그러한 도입이 가져오는 도전을 인식해야 한다. 차세대 학습자가 개인 생활에서 모바일 기기를 유창하게 사용하기 때문에 학습 및 평가에서 새로운 기술을 쉽게 수용하는 이른바 '디지털 네이티브'라는 신념을 수용하는 것을 피해야 할 필요성이 지속적으로 제기되고 있다(Tapscott 1998; Prensky 2001; Bennett et. 2008; Jones 2010; Jones et. 2010). 학습자와 교수진의 테크놀로지 몰입도는 높아졌지만, 이는 주로 [사회적/개인적 공간]에 존재한다. [일상생활에서 디지털 기술을 사용하는 것]과 [학습에서 디지털 기술을 사용하는 것] 사이의 격차는 이전 연구에서 보고되었다(Selwyn 2010; Pyörä et al. 2019). 따라서 HPE는 여전히 모든 학습자와 교육자가 필요로 하는 지원에 초점을 맞춰 TEA를 효과적으로 만들어야 합니다. 
Within the broader opportunities that exist in developing TEA processes, we must also be cognisant of the challenges such introduction brings. There is a continued need to avoid embracing the myth that the next generation of learners are so-called ‘digital natives’ who easily embrace the use of new technology in learning and assessment because they use mobile devices fluently in their personal lives (Tapscott 1998; Prensky 2001; Bennett et al. 2008; Jones 2010; Jones et al. 2010). Whilst learners and faculty have increased technology immersion, this primarily exists in their social/personal spaces; gaps between their use of digital technology in their daily life and in learning have been reported in previous studies (Selwyn 2010; Pyörälä et al. 2019). HPE therefore still needs to focus on the support that all learners and educators will need, to make TEA effective.

또한 TEA의 도입은 이미 큰 성취 격차를 더 벌릴 위험도 있다. 한 기관의 다른 [학습자 그룹 간] 또는 [기관 간]에서 발생할 수 있다(Rahim 2020; Hegazy et al. 2021). (이전 교육을 통해 또는 HPE 내에서) 더 나은 IT 시스템, 지원 및 연결성에 [이미 접근하고 있는 사람들]은 [기본적 인프라에서 불안정을 겪거나 박탈에 직면한 사람들]보다 TEA를 도입/채택하는 것이 더 쉽다는 것을 알게 될 것이다(Aristovnik et al. 2020). 기관들과 교육자들은 필연적으로 그들 자신의 지역적 과제에 집중하게 될 것이지만, TEA의 도입으로 제기되는 더 큰 질문 중 하나는 [디지털 형평성]을 촉진하는 기술 변화를 어떻게 바꿔나가고 주도할 수 있는가 하는 것이다.
There is also a risk that the introduction of TEA will widen the already large attainment gaps, between different groups of learners in an institution or between/across institutions (Rahim 2020; Hegazy et al. 2021). Those already with access to better IT systems, support, and connectivity (either through their previous education or within HPE) will find TEA easier to introduce/adopt than those who face instability or deprivation in the basic infrastructure (Aristovnik et al. 2020). While institutions and educators will inevitably be focused on their own local challenges, one of the larger questions posed by the introduction of TEA is how we could steer and drive technology change that promotes digital equity.

TEA에서 디지털 형평성의 중요성은?
The importance of digital equity within TEA?


개별 프로그램 수준에서 TEA는 모든 학습자가 필요한 테크놀로지와 온라인 테크놀로지에 대한 [동등한 접근성]을 갖도록 하기 위해 모든 학습자의 [디지털 형평성]을 보장해야 한다(Alexander et al. 2019). 따라서 온라인 평가를 구현할 때 학습자(및 교수진) 간의 기술적 차이를 제한하기 위해 디지털 형평성을 보장하는 전략이 필요하다. 전략은 학습에 사용되는 장치의 카파시티, 학습(즉, 장치 생성), 운영 체제(예: iOS, Android) 및 필요한 액세서리(예: 카메라, 마이크)를 고려해야 한다. 이 전략은 학생들의 디지털 역량이 특정 업무와 기술과 관련이 있다는 점을 감안하여 각 [온라인 평가에 필요한 디지털 역량]을 포함해야 한다(Bennett et al. 2008). TEA에 대한 디지털 형평성 보장은 한 기관의 프로그램 내에서 학습자 또는 전국적으로 기관 면허/전문 평가를 받기 위해 앉아 있는 피평가자에게 [평가 동등성]을 보장하는 중요한 단계이다(Wilkinson and Nadarajah 2021).
At an individual programme level, TEA needs to ensure the digital equity of all learners to ensure they have the required skills and comparable access to online technology (Alexander et al. 2019). When implementing online assessments, a strategy that ensures digital equity is therefore needed to limit the technological differences between learners (and faculty). Strategies need to consider the capacity of devices used for learning (i.e. the generation of devices), operating systems (e.g. iOS, Android), and accessories required (e.g. camera, microphone). The strategy ought to include the digital capabilities students need for each online assessment, given that students’ digital capabilities relate to specific tasks and technologies (Bennett et al. 2008). Ensuring digital equity for TEA is a crucial step to ensuring assessment equivalence for learners within a programme in one institution or for candidates sitting for licencing/professional assessments across institutions nationally (Wilkinson and Nadarajah 2021).

[디지털 형평성]은 학생들의 기존 기기와 디지털 역량 내에서 작동하는 온라인 평가와 새로운 테크놀로지를 구매해야 하는 학생들을 위한 능력과 비용에 이르는 기기를 나열하는 기기 사양을 통해 강화될 수 있다. BYOD(Bring Your Own Device) 평가의 성공적인 성장은 공동 생성 및 학습자 연결을 촉진하는 학습자가 보유한 커뮤니티 기반 기술의 신중한 사용에 의존했습니다(Sundgren 2017). 가정 내 온라인 평가를 포함하는 프로그램은 학습자의 고속 인터넷 연결의 용량과 안정성을 고려해야 한다.
Digital equity can be enhanced through online assessments that operate on students’ existing devices and within their digital capabilities, and a device specification that lists devices ranging in capability and cost for students who need to purchase new technology. The successful growth of BYOD (Bring Your Own Device) assessments relied on the deliberate use of community-based technologies, held by learners, that facilitate co-creation and learner connectivity (Sundgren 2017). A programme involving in-home online assessments needs to consider the capacity and stability of learners’ high-speed internet connectivity.

그러나, 세계 다른 지역에 위치한 기관들 간의 형평성을 보장하는 TEA의 능력에 대한 더 광범위한 질문이 있으며, 이는 여기서 만들어진 권고안이 [저자원 기관]을 뒤처지게 하지 않도록 하기 위해 명시적인 논의가 필요하다. 유네스코는 디지털 접근성에는 두 가지 차원이 있다고 언급했다.

  • 기술적(장치의 연결과 용량을 위한 인프라) 차원
  • 사회경제적(저렴성과 학생의 디지털 능력) 차원

[테크놀로지에 대한 불평등한 접근]과 그에 따른 TEA는 [지역사회 간 및 지역사회 내의 기존 소득 및 자원 불평등]과 관련이 있으며 이를 악화시킬 수 있다(UNESCO 2018). 인터넷 사용률이 높은 지역 내에서도 소외된 지역사회는 기회를 놓칠 수 있다. 예를 들어 뉴욕에서는 25%의 가정이 인터넷 접속이 없다(Mozilla 2017). 개별 기관만으로는 이러한 문제를 해결할 수 없을 것 같지만, TEA에서 기술 사용이 잘 될 때, 그리고 더 중요한 것은, 다른 프로그램이 비용이 많이 드는 실수를 하지 않도록 돕기 위해 다양한 기술 솔루션을 시험해 볼 수 있는 사람들이 결과를 공유하는 것이 중요합니다.
However, there are broader questions around the ability of TEA to ensure equity between institutions situated in different parts of the globe, and these need explicit discussion to ensure that recommendations made here do not leave lower resourced institutions behind. UNESCO noted that there are two dimensions to digital accessibility:

  • technical (infrastructure for connectivity and capacity of devices) and
  • socio-economic (affordability and students’ digital capabilities).

Unequal access to technologies and subsequently to TEA is linked to and can exacerbate, existing inequalities of income and resources between and within communities (UNESCO 2018). Even within areas of high internet use, marginalised communities may be missing out on opportunities; for example, in New York, 25% of homes have no internet access (Mozilla 2017). While individual institutions are unlikely to be able to solve these issues alone, it is vital that those who are able to trial different technological solutions share their results when the use of technology in TEA goes well—and even more importantly, when it goes less well, to help other programmes avoid making costly mistakes.

프로그램, 인력, 제품 및 프로세스?
Programmes, people, products, and processes?

성명서 작성자 및 워크숍 참석자 중 많은 사람의 경험에 비추어 보았을 때, 테크놀로지 채택을 준비할 때 [의도된 결과]보다는 [테크놀로지 자체]에 초점을 맞추는 경우가 많다. 이 접근 방식이 위험한 이유는 테크놀로지는 활성화자enabler가 아니라 [그 자체가 평가 향상의 초점이자 동인]이 된다는 것입니다. 이러한 접근 방식은 또한 개인적인 선호와 이전의 경험에 기초하여 특정 기술 제공자, 제품 또는 솔루션에 과도하게 초점을 맞추는 결과를 초래할 수 있다. 이를 방지하기 위해 본 권고안은 TEA를 채택할 때 포괄적인 팀 기반 접근법으로 '4P' 접근법(프로그램, 인력, 프로세스 및 제품)을 제안한다.
Based on the experiences of many of the statement’s authors and workshop attendees, considerations regarding readiness to adopt technology are often focused on the technology itself rather than the intended outcome. The risk of this approach is that the technology becomes the focus and driver of assessment enhancement rather than the enabler. This approach may also result in an over-focus on a particular technology provider, product, or solution based on personal preferences and previous experiences. To avoid this, this recommendation proposes a ‘4P’ approach (Programmes, People, Processes, and Products) as a comprehensive team-based approach when adopting TEA.

프로그램
Programmes

첫 번째로 [맥락과 교육적 요구]의 프레임에 넣어야 한다. 평가 Blueprint는 현재 구현 격차, 기술 솔루션(있는 경우), 리스크 평가 및 필요한 리소스를 포함하도록 더욱 확장될 수 있습니다. 위험 평가에는 규제 준수에 대한

  • 로컬(새로운 형식/승인 일정을 변경/도입하는 과제)과
  • 외부(해당되는 경우 국가 및/또는 규제 요건에 대한 지속적인 준수) 및
  • 자원(기반시설, 하드웨어 또는 소프트웨어 업그레이드)이 포함되어야 한다.

the first area of consideration should frame the context and educational need. Assessment blueprints can be further expanded to include

  • current implementation gaps,
  • technological solutions (if any),
  • risk assessment, and
  • resources needed.

Risk assessments should include

  • the impact on regulatory compliance locally (challenges of switching/introducing new formats/approval timelines) and
  • (compliance) externally (where appropriate, continued compliance with national and/or regulatory requirements), and
  • resources (upgrading infrastructure, hardware, or software).

사람
People

성공적인 구현을 이루려면, 변화 관리의 우선 순위는 항상 사람에게 집중됩니다(Er et al. 2019). 평가 강화와 관련하여 참여해야 할 인력은 [교수진, 전문 지원 인력(예: 시험장, IT) 및 학생] 등 세 그룹으로 구성됩니다. 이 계약에는 개선과 관련된 새로운 스킬과 관련된 교육 및 파일럿 개발 후 피드백을 제공할 수 있는 기회가 포함되어야 합니다. 마찬가지로, 학습자와 전문 지원 인력의 참여는 끝이 아니라 [프로젝트의 시작]에 참여해야 합니다. 학생들은 평가 향상과 협력하거나 공동 개발을 위해 성공적으로 협력할 수 있다(Er. et al. 2019, 2020).
Priorities for change management always focus on people, as their buy-in, participation, and feedback are crucial for successful implementation (Er et al. 2019). In the context of enhancing assessments, there are three groups of people to engage with: faculty, professional support staff (e.g. exam office, IT), and students. It is critical that this engagement includes training related to any new skill sets related to the enhancement and opportunities to give feedback after pilot developments. Similarly, the engagement of learners and professional support staff should be genuine, with their involvement at the start of the project rather than the end. Students can be successfully co-opted to partner with or co-develop the assessment enhancements (Er et al. 2019, 2020).

과정
Processes

평가를 효율적으로 구현하기 위해 관련 이해 관계자들 간에 공유해야 하는 [내부 프로세스]가 있습니다. 그러나 평가를 위해 테크놀로지가 사용되거나 추가될 때, 종종 파편적이거나 직접적인 '잘라서 붙여넣기 접근법'(전환)을 하는 함정에 빠질 수 있다. [평가 데이터 관리]는 특히 이러한 프로세스의 변화에 민감할 수 있습니다. 다양한 레벨에서 [평가 데이터 거버넌스, 보안, 전송 및 보고]에 대한 테크놀로지 향상의 영향을 검토하면 데이터 [상호 운용성]을 지원하고, 테크놀로지 평가의 실패 위험을 줄일 수 있습니다.

To implement assessments efficiently, there are internal processes that should be shared across relevant stakeholders. However, when technology is used or added for assessments, process change pitfalls often include piecemeal or direct ‘cut and paste approaches’ (transmediation). Assessment data management can be particularly susceptible to changes in such processes. A review of the impact of the technology enhancement on assessment data governance, security, transfer, and reporting at different levels can help enable data interoperability and reduce risks of technology assessment failure.

상품들
Products

기술 제품의 선택은 [업무 범위, 접근성, 기관의 지불가능성]에 따라 달라집니다. 전자에 기반한 평가는 제품을 개발하기 위해 외부 조직과 구매, 구축 또는 파트너 관계를 결정하는 것으로 이어질 수 있습니다. 모든 제품을 선택할 때, 기존의 제도적 기술(예: MS Office와 같은 일상적 제품의 모든 능력을 더 잘 활용할 수 있는 기회)과 이미 개인 및 전문 학습을 지원하기 위해서 이용할 수 있는 광범위한 테크놀로지를 갖춘 '현대 전문 학습 도구 키트'의 개념을 신중하게 고려할 필요가 있다. (Hart 2021).
The selection of the technology product depends on its alignment to the scope of work, accessibility, and affordability to the institution. An evaluation based on the former can lead to the decision to buy, build or partner with an external organisation to develop the product. In the selection of any product, careful consideration needs to be given to the utilisation of existing institutional technology (e.g. opportunities to better leverage the full abilities of everyday products, such as MS Office) and the concept of the ‘modern professional learner’s toolkit’ with an extensive range of technology already available to support personal and professional learning (Hart 2021). 

https://www.toptools4learning.com/

2단계: '평가 라이프사이클' 내 기술 적용
STAGE 2: Applying technology within the ‘assessment lifecycle’

이 논문은 다른 최근의 오타와 합의 진술과 함께 기술을 통한 평가 향상을 안내하는 핵심 원칙의 프레임워크를 제공한다. 보다 광범위한 고등교육 평가 라이프사이클 모델을 지원으로 채택하는 것은 의도적인 것으로, 이 합의의 다중 교육 맥락에 대한 적용 가능성을 극대화한다. 라이프사이클은 평가의 이해관계와 목적에 관계없이 평가에 관련된 모든 핵심 프로세스에 대해 쉽게 식별할 수 있는 '헬리콥터 뷰'를 제공합니다. 라이프사이클 프로세스는 반복적이며, 평가 설계, 스케줄링 및 전달을 무결성 및 행동, 조정 및 학생 진행 추적(JISC 2016)을 둘러싼 주요 학문적 프로세스까지 포괄하는 품질 개선 접근 방식을 가능하게 합니다. 그림 1에 나타난 바와 같이:
In keeping with other recent Ottawa consensus statements, this paper provides a framework of core principles to guide the enhancement of assessment with technology. Adopting a broader Higher Education assessment lifecycle model as support is intentional, maximising the applicability of this consensus to multiple educational contexts. The lifecycle provides a readily identifiable ‘helicopter view’ of all key processes involved in assessment, whatever the stakes and purpose of the assessment. The lifecycle process is iterative, enabling a quality improvement approach that spans assessment design, scheduling, and delivery through to key academic processes surrounding integrity and conduct, moderation, and student progress tracking (JISC 2016). As demonstrated in Figure 1:

 

이 라이프사이클 접근 방식은 [평가 '도구']에서 [우수한 평가의 시스템과 프로그램], 특히 프로그램 평가에서 볼 수 있는 [전체론적 접근 방식]으로 HPE의 초점 변화를 반영한다(Heeneman et al. 2021). 의료 교육에서 라이프사이클은 OSCE와 같은 복잡한 평가 개입의 설계 및 전달에도 성공적으로 적용되었다. TEA의 컨텍스트에 적용되는 라이프사이클은 [5가지 핵심 초점]과 적용 대상을 제공합니다.

  • 평가의 Authenticity 향상(대원칙)
  • 학습자를 평가에 참여시킵니다.
  • 설계 및 스케줄링을 강화한다.
  • 평가 전달 및 학습자 성과 기록을 최적화한다.
  • 학습자 진행 과정 및 교수진 활동을 트래킹한다 —종방향 학습 및 지속적인 평가 지원.


This lifecycle approach reflects the changing focus in HPE from assessment ‘tools’ to systems and programmes of good assessment, particularly the holistic approach seen in programmatic assessment (Heeneman et al. 2021). Within medical education, the lifecycle has also been successfully applied to the design, and delivery, of complex assessment interventions, such as the OSCE. Applied to the context of TEA, the lifecycle provides five key foci, and targets for application:

  1. Advancing authenticity of assessment (an overarching principle)
  2. Engaging learners with the assessment
  3. Enhancing design and scheduling
  4. Optimising assessment delivery and recording of learner achievement
  5. Tracking and learner progress and faculty activity—supporting longitudinal learning and continuous assessment.

합의된 직접 워크숍의 피드백과 이론 정보를 바탕으로 한 실천 혁신 보고서의 가치에 따라, 이러한 원칙은 합의된 저작자로부터 도출된 일련의 모범 사례로 보완된다. 언제든지 교육 혁신을 도입하는 것이 도전이라는 것을 인식하면서(그리고 이러한 예들은 전염병 시대/대유행 시대에는 더욱 그렇다), 영감을 주는 동시에 잠재적 템플릿으로 기능하는 것을 목표로 하며, 위에서 설명한 기준에 따라 정의된 TEA의 기존 우수 관리 사례에 대한 [사례 연구]를 제공한다. 모든 예가 모든 맥락에서 작동하는 것은 아니지만, 독자들이 자신의 환경에서 작동하도록 적응될 수 있는 모든 사례 연구와 지원 문헌의 요소를 찾을 수 있기를 바란다. 형평성에 관한 합의의 모범 사례 조언에 따라, 사례 연구는 의도적으로 이러한 목적을 위한 하나의 '최고의' 기술을 의미하지 않는다. 각 위치에서 작동하는 실제 하드웨어 및 소프트웨어는 기존 기관 인프라와 투자에 의존하며, 이는 맥락에 관계없이 교육자가 전 세계적으로 작업하는 범위를 제한합니다.
Following feedback from consensus in-person workshops, and the value of theory-informed, practice innovation reports, these principles are supplemented by a series of good practice exemplars are drawn from the consensus authorship. Recognising that introducing educational innovation at any time is a challenge (and arguably more so in peri/post-pandemic times), these exemplars aim to serve both as inspiration and a potential template, providing case studies of existing good practice in TEA as defined by the criteria outlined above. Not all the examples will work in all contexts, nevertheless, it is hoped that readers will be able to find elements of all the case studies and supporting literature that could be adapted to work in their own environments. Following the consensus’ best practice advice in relation to equity, case studies deliberately do not imply one ‘best’ technology for this purpose. The actual hardware and software that works in each location depend upon existing institutional infrastructures and investment, confines under which educators work globally, regardless of context.

원칙 1: 평가의 진정성 제고
Principle 1: Advancing assessment authenticity

커리큘럼의 적절한 단계 및 관련 역량과 일치하는 ['진짜Authentic' 평가] 과제의 설계는 학습자 참여 및 품질 평가의 초석입니다. 기술이 이러한 과제를 추가로 개발하기 위해 사용될 때(예: 가상 현실 시뮬레이션의 도입) 학습자 참여 및 기술 혁신의 잠재적 이점은 [의도하지 않은 다른 구조(테크놀로지 친숙성/네비게이션 요구 포함)]의 도입으로 상쇄될 수 있다. 교육 연구는 'Authentic' 과제에 대한 참여와 평가가 진정으로 고립 상태에서 과제를 숙달하는지, 아니면 실천과 진정한 학습자 개발에 더 통합적으로 적용하는지 여부를 계속 조사한다(Wiliam 2021). 따라서 HPE에서의 TEA 개발은 [교육적, 기술적, 임상적]으로  '진정성 인터페이스authenticity interface'를 어떻게 연결하는지 비판적으로 검토할 필요가 있다.
The design of ‘authentic’ assessment tasks, aligned with the appropriate stage of a curriculum and relevant competencies, is a cornerstone of learner engagement and quality assessment. When technology is used to develop these tasks further (e.g. introduction of virtual reality simulation), the potential benefits of enhanced learner engagement and innovation may be offset by the unintentional introduction of different constructs (including familiarity/navigation requirements of the technology). Educational research continues to examine whether engagement in, and assessment of, ‘authentic’ tasks truly leads to mastery of the task in isolation, or more integrative application to practice and true learner development (Wiliam 2021). The development of TEA in HPE, therefore, needs to critically examine how it bridges the ‘authenticity interface’ of pedagogy, technology, and clinical practice.

[교육학적]으로, 평가의 초점은 [학습의 평가]만을 유일한 초점으로 가지고 있다가 [학습을 위한 평가]라는 더 큰 표현으로, 더 나아가 '지속 가능한 평가sustainable assessment'로 계속 전환되고 있다(Boud 2000). 목표는 학생들의 [오늘날 성적]에 대한 점수를 주는 것뿐만 아니라 그들의 [미래 학습과 자기 조절 학습 기술]의 성장을 지원하는 것, 그들이 스스로 [학습 목표를 설정하고 그들의 지식, 기술 및 행동을 모니터하는 능력]이다. [지속가능한 평가]는 학생이 교육 환경뿐만 아니라 미래의 직장 생활 전반에 걸쳐 자신의 성과를 평가하는 능력을 배워야 한다고 강조한다(Boud 2000; Boud and Soler 2016).

Pedagogically, the focus of assessment continues to shift from a sole focus of the assessment of learning to a greater representation of assessment for learning and thus to ‘sustainable assessment’ (Boud 2000). The goal is not only to give grades on the students’ performance today but to support their future learning and growth of self-regulated learning skills, the ability to set goals for their learning, and monitor their knowledge, skills, and behaviour. Sustainable assessment emphasises that the student should learn the ability to assess their own performance not only in their educational settings but throughout their future working lives (Boud 2000; Boud and Soler 2016).

TEA에서, 이것은 우리가 평가 도구의 측정과 테크니컬한 개발에 초점을 덜 맞추고, 진정한 학습/직장 맥락에서 학생 학습을 촉진하는 질적이고 인격화된personified 평가에 더 큰 초점을 맞추어야 한다는 것을 의미한다. 평가 도구와 더불어서, [평가의 결과]로 [메타인지 기능과 학생 참여를 고려하는 대안적alternative 학습 분류법]을 사용하면 Authentic tools의 선택과 설계에 정보를 제공할 수 있다. Higher and Continuous Education의 광범위한 경험과 평가에 대한 접근 방식은 다음과 같은 대안적인 평가 형식을 위한 추가적인 유용한 리소스입니다.

  • 오픈 북 및 테이크아웃 평가(예: Sambell 및 Brown 2021),
  • 교사가 학생의 진도를 추적하는 동시에 학습자가 학습 진도와 계획 개선에 대한 판단을 내릴 수 있는 능력을 개발할 수 있도록 지원하는 평가 도구(말레카 및 Boud 2021).

In TEA, this means that we should ensure less focus on the measurement and technical development of assessment tools, and a greater focus on the qualitative and personified assessment fostering student learning in authentic learning/workplace contexts. The use of alternative learning taxonomies that consider metacognitive function and student engagement as a result of the assessment, alongside assessment tools, can inform the selection and design of authentic tools (Marzano and Kendall 2007; Villarroel et al. 2018). The wider experiences of, and approaches to, assessment in Higher and Continuing Education are an additional useful resource for alternative assessment formats including

  • open book and takeaway assessments (e.g. Sambell and Brown 2021), and
  • assessment tools that help teachers track their students' progress whilst allowing learners to develop their own capacity to make a judgement about their learning progress and plan improvement (Malecka and Boud 2021).

[테크니컬하게], TEA는 교육 테크놀로지 개발에 inform하는 핵심 원칙을 활용하여, '네비게이션' 문제는 최소화하고, 학습자와 교직원을 설계의 중심에 두어야 합니다(Divami 2021). 평가가 다음의 특징을 갖도록 설계되어야 한다.

  • 기회적 (예: 광범위한 환경에서 WBA를 지원하기 위한 스마트폰 사용)
  • 몰입적 (예: 학습자가 자체 및 그룹 평가 기회를 만들 수 있음)
  • 연결적 (학습 조직 내 개인화 및 연결성 향상—예: 전공의의 성찰을 촉진하기 위한 스마트폰 앱/코칭 그룹)

Technically, TEA should leverage key principles that inform educational technology development, minimising ‘navigation’ issues and place learners and faculty at the heart of design (Divami 2021). Design should allow the assessment to be

  • opportunistic (e.g. the use of smartphones to support WBA in a wide range of settings),
  • immersive (e.g. allowing learners to create their own self- and group assessment opportunities), and
  • connected (allowing personalisation and connectivity within learning organisations—e.g. smartphone apps/coaching groups to promote reflection by residents) (Konings et al. 2016).

[임상적]으로 TEA가 기술 지원 의료에 대한 현재 및 새로운 접근 방식과 효과적으로 상호 작용할 수 있는 상당한 기회가 있습니다. HPE 평가에서 현재 교육 테크놀로지는 많은 경우에 ([개인, 그룹 및 인구의 관리를 강화하기 위해 테크놀로지가 어떻게 사용되는지에 맞추는 기회보다는]) 전달delivery에만 초점을 맞추고 있다. 예를 들어, 평가 기회를 안내하기 위해 다음과 같은 간단한 프레임워크를 제안합니다.
Clinically, there are significant opportunities for TEA to interface effectively with current and emerging approaches to technology-enabled healthcare. Much of the current focus of educational technology in HPE assessment focuses on delivery, rather than an opportunity to align to how technology is used to enhance the care of individuals, groups, and populations. For example, we suggest the following simple framework to guide assessment opportunities:

장치 증강 치료
Device augmented care

많은 의료 시스템에서 [종이 없는 의료 시스템]과 클라우드 기반 '공유 진료shared care'의 출현은 온라인 상담, 커뮤니케이션 및 의사 결정에 필요한 빠른 [업스킬링]을 강조한다(Greenhalgh et al. 2016; Darnton et al. 2021). 학부생과 전문가 모두를 위한 침상 진단 및 치료 절차로서의 침상 초음파의 출현과 성장은 TEA 개발의 목표를 제공한다(McMenamin et al. 2021).
In many health systems, the advent of paperless healthcare systems and cloud-based ‘shared care’ (e.g. Philips 2021) spotlight the rapid upskilling needed for online consultation, communication, and decision making (Greenhalgh et al. 2016; Darnton et al. 2021). The advent and growth of bedside ultrasound as a bedside diagnostic and therapeutic procedure for undergraduates and professionals alike provides targets for TEA development (McMenamin et al. 2021).

환자 및 전문가에 대한 기대 및 보건 기술 사용능력
Expectations, and health technology literacy, of patients and professionals

빠르게 변화하는 치료 속도는 HPE 학습자와 전문가의 글로벌 커뮤니티가 [끊임없이 변화하는 가이드라인, 프로시저 및 약물을 사용하여 치료를 제공한다]는 것을 의미하며, 이를 위해서는 [온라인 리소스에 대한 적시 액세스]와 [지속적인 전문 개발CPD]이 필수적이다. 환자 치료의 일환으로 [그러한 자원에 '언제, 왜, 어떻게' 접근하는지를 입증하는 것]이 평가의 중요한 대상이 되어야 한다.
A rapidly changing pace of care means the global community of HPE learners and professionals will deliver care using constantly changing guidelines, procedures, and drugs, where timely access to online resources and continuing professional development are essential. Demonstrating ‘when, why, and how’ such resources are accessed as part of patient care should be a critical target for assessment.

상태 분석 및 리스크 커뮤니케이션
Health analytics and risk communication

[빅 데이터와 딥 머신 러닝]의 사용은 건강에 점점 더 기여하고 알고리즘과 의사 결정을 안내하며 진단에 기여한다(Rajpurkar et al. 2022). [공유된 환자-전문가 상담 모델] 내에서 [위험 커뮤니케이션, 디지털 사용능력 및 의사 결정]을 통합하는 평가를 설계하면 AI의 기회와 한계에 대한 지속적인 논의를 수용하면서 매우 정통한 평가 작업에 대한 기회를 제공한다(원칙 5).
The use of big data and deep machine learning increasingly contribute to health, guiding algorithms and decision making, and contributing to diagnosis (Rajpurkar et al. 2022). Designing assessments that integrate risk communication, digital literacy, and decision making within shared patient-professional consultation models provide opportunities for highly authentic assessment tasks, accepting the ongoing debate about the opportunities and limitations of AI (Principle 5).

 

원칙 2: 학습자를 평가에 참여시킵니다.
Principle 2: Engaging learners with assessment

이상적인 교육 프로그램에서, 학습자는 (중요하다고 인식할 때뿐만 아니라) [언제나] 학습 프로그램 전반에 걸쳐 평가에 완전히 참여합니다. 합의 전반에 걸쳐 제시된 각 모범 사례 연구의 헤드라인 원칙은 비동기성과 연결의 기회가 주어지면 학습자 참여를 TEA를 통해 더 잘 촉진할 수 있다는 것을 강화한다. [능동적인 학습자 참여]는 [심층 학습]과 [성취 및 활동 측정 및 모니터링을 위한 기술 사용(예: 가상 학습 환경을 통한)]과 강하게 연관되어 있으며, 평가 성과에서 [초기 및 지속적인 학습자 참여의 중요성]을 강조한다(Korhonen 2021). 이 첫 번째 사례 연구에서 Webb와 Valter는 평가에 대한 참여와 창의성을 개선하고 재사용 가능한 학습 리소스를 개발하며 학습자 그룹을 연결하는 단순하고 쉽게 사용할 수 있는 기술의 힘을 입증합니다.

In an ideal educational programme, learners would always be fully engaged with assessment throughout their programmes of study (not just when they perceive it matters). The headline principle for each of the good practice case studies presented throughout the consensus reinforces that learner engagement can be facilitated better through TEA given the opportunities for asynchronicity and connectivity. Active learner engagement is strongly associated with deeper learning (Villarroel et al. 2019) and achievement and the use of technology (e.g. through virtual learning environments) to measure and monitor activity highlights the importance of both early, and sustained learner engagement in assessment outcomes (Korhonen 2021). In this first case study, Webb and Valter demonstrate the power of simple, readily available technology to improve participation and creativity in assessment, develop reusable learning resources, and connect groups of learners:


사례 연구 1
Case Study 1

유튜브 세대를 위한 평가: [학생이 만든 해부학 비디오]에 대한 사례 연구(Alex Webb & Chrisztina Valter, 호주 국립 대학교)
Assessment for the You-Tube generation: a case study on student-created anatomy videos (Alex Webb & Krisztina Valter, Australian National University)

맥락
Context

우리는 선생님이 제공한 5가지 옵션 목록에서 선택한 [해부학 주제에 대한 2000단어 개별 에세이 평가]를 현대화하려고 했다.
We sought to modernise a 2000-word individual essay assessment on anatomy topics chosen from a list of five options provided by the teacher.

우리가 달성하려고 했던 게 뭐죠?
What were we trying to achieve?

우리는 주제에 대한 학생 질문을 자극하고 일반적으로 사용 가능한 기술을 사용하는 자체 지식 표현의 구성을 촉진하기 위해 평가 과제를 다시 설계했다. 또한 이 과제가 학생들의 선택권을 부여하고, 학습을 재미있게 하며, 학생들이 창의적으로 할 수 있도록 하며, 학생들이 동료들과 쉽게 공유할 수 있는 결과물을 생산할 수 있는 기회를 제공하는 것도 중요했다. 게다가, 우리는 더 적은 시간 안에 더 즐겁게 채점를 할 수 있기를 바랐습니다!
We re-designed the assessment task to stimulate student interrogation of the topic and construction of their own knowledge representations utilising commonly available technology. It was also important that the task empowered student choice, made learning fun, allowed students to be creative, and provided an opportunity for students to produce outputs that could easily be shared with peers. In addition, we hoped to make marking more enjoyable in less time!

우리가 한 일
What we did

학생들은 5명으로 구성된 스스로 선택한 그룹의 해부학적 주제에 대한 5-7분짜리 재미있는 교육 비디오를 만들어야 했다. 각각의 비디오는 선생님들에 의해 채점되었다. 비디오는 평가와 수정을 위해 전체 코호트에 제공되었다.
Students were tasked to create a 5–7-min entertaining educational video on an anatomy topic of their choice in self-selected groups of five. Each video was graded by the teachers. The videos were provided for the whole cohort for evaluation, and for their revision.

영향의 지속적인 평가
Ongoing evaluation of impact

대다수의 학생들이 이 활동을 즐겼으며(93%) 이 활동을 통해 주제에 대한 이해도(90%)가 향상되는 것으로 나타났다. 주제를 연구하고 지식을 통합할 수 있는 기회가 학습에 도움이 되는 핵심 요소였습니다. 하지만, 시간과 새로운 기술을 배우는 것은 그들의 학습에 방해가 되었다. 교사들에게는, 채점하고 피드백을 제공하는 것이 더 효율적이고 즐거웠습니다.
The majority of students enjoyed the activity (93%) and found that it improved their understanding of the topic (90%). The opportunity to research the topic and consolidate their knowledge were key factors aiding their learning. However, time and learning a new technology detracted from their learning. For teachers, marking and providing feedback were more efficient and enjoyable.

테이크홈 메시지
Take home message

비디오를 만드는 과정은 학생들이 동료들과 쉽게 공유할 수 있는 그들 자신의 학습을 돕기 위해 해부학적 개념에 대한 그들 자신의 표현을 구성하기 위해 팀으로 일할 수 있는 재미있고 자극적인 기회를 제공했다.The process of creating videos provided students with a fun and stimulating opportunity to work as a team to construct their own representations of anatomical concepts to aid their own learning, which can be easily shared with peers.


이 사례는 학습자가 평가 과정에 참여하는 강력한 사례로, '하면서 배우는 것을 선호하는' 세대를 위한 평가 적응에 있어 최상의 원칙(Marzano와 Kendall 2007)과 학습자가 학습하기 위해 하는 일에 의미를 구성한다는 원칙(Biggs와 Tang 2011)을 보여준다. 이러한 작업(평가 지분 범위에 적응할 수 있음)은 [공동 제작 콘텐츠 생성]의 추가적인 이점을 가지고 있으며, 그 결과 다음 코호트에 대한 교육 및 평가 참여를 향상시키는 데 사용될 수 있는 [리소스 뱅크]가 생성된다. 건강 인문학적 관점에서, 이러한 과제들은 또한 학생들이 평가를 통해 창의적 역량을 발휘할 수 있게 한다.
The case study is a powerful example of learner engagement with the assessment process, demonstrating the best principles in adapting assessment for a generation who ‘prefer to learn by doing’ (Marzano and Kendall
 2007) and the principle that learners construct meaning on what they do to learn (Biggs and Tang 2011). Such tasks (which can be adapted to a range of assessment stakes) have the additional benefit of co-produced content creation, resulting in a bank of resources that can then be used to enhance teaching and assessment engagement for the following cohort. From a health humanities perspective, such tasks also enable students to demonstrate their creative capacities through assessment.


[디지털 및 지리적 형평성 관점]에서 TEA는 국경을 넘어 교육자와 학습자 간에 낮은 [저부담 평가 포맷]을 공유할 수 있는 무한한 가능성을 제시합니다. 단순하고 확립된 기술의 사용은 종종 학습자가 (컴퓨터나 노트북이 아닌) 비교적 [기본적인 스마트폰 장치]만을 접근/보유하는 것으로도 충분하다. 인구와 관련된 장치의 보급을 고려할 때 2014년에 전세계적으로 실현 가능한 것으로 간주되었다. 현재 테크놀로지는 모든 모바일 장치에서 현재 보편화된 필기, 오디오 또는 'STT' 기능을 통해 [무엇이 잘 진행되고 있는지, 무엇을 개선할 수 있는지, 어떻게 다음 단계로 나아갈 수 있는지]에 대한 생각을 순간적으로 요청하고 기록할 수 있는 기회를 제공할 수 있습니다(Tuti et al. 2020). 이러한 기회는 실제로 학습자 주도적이고 실행 가능한 피드백의 확립된 이론적 원칙을 기반으로 평가와 학습 행동을 긍정적으로 형성할 수 있는 기술의 힘을 열어줍니다(Sadler 2010; Boud and Molloy 2013).
From a digital and geographical equity perspective, TEA presents endless possibilities to share low-stakes assessment formats between educators and learners across borders. The use of simple, established technology often requires learners only to access/hold a relatively basic smartphone device (rather than a computer or laptop); something which was considered to be feasible worldwide in 2014, given the prevalence of devices in relation to the population (International Telecommunication Union 2014 in Fuller and Joynes 2015). Technology can present opportunities to engage learners differently with feedback; offering quicker ways to request and record in the moment thoughts on what is going well, what can be improved, and how to progress to the next level, through written, audio, or ‘speech to text’ functions now common in all mobile devices (Tuti et al. 2020). Such opportunity really opens up the power of technology to positively shape both assessment and learning behaviours, building on established theoretical principles of learner-driven, actionable feedback (Sadler 2010; Boud and Molloy 2013).

원칙 3: 평가 설계 및 스케줄링 개선
Principle 3: Enhancing design and scheduling of assessment

지난 10년간의 많은 기술 발전은 특히 품질 또는 유효성 렌즈를 통해 볼 때 HPE 평가에 대한 접근 방식의 상당한 개발을 가능하게 했다(St-Onge et al. 2017). 소프트웨어는 이제 개인, 기관, 컨소시엄 및 국가 수준에서 [지식 시험 문제은행(예: 단일 모범 답안 형식)]의 창설을 지원하기 위해 일상적으로 사용된다. 평가 문항을 설계하고 공유하기 위해 평가 컨소시엄 내에서 [원격 작업]하는 것은 상당한 비용 절감과 효율성을 제공하며, 항목의 정교한 [태깅]은 테스트 생성과 해당 구성 정렬에서 틀림없이 더 나은 품질을 가능하게 한다(Kickert et al. 2022). 문항의 개발, 수정 및 은행 업무와 관련된 상당한 비용은 현재 [자동 문항 생성]의 잠재력에 의해 도전받고 있다(Lai et al. 2016).
Many of the technological developments of the last decade have enabled considerable development of approaches to HPE assessment, particularly when viewed through a quality, or validity lens (St-Onge et al. 2017). Software is now used routinely to support the creation of knowledge test item banks (e.g. for single best answer formats) at the individual, institutional, consortia, and national levels. Working remotely within assessment consortia to design and share assessment items presents substantial cost savings and efficiencies, and sophisticated tagging of items allows arguably better quality in the creation of tests and their constructive alignment (Kickert et al. 2022). The substantial costs associated with the development, emendation, and banking of items are now being challenged by the potential of automatic item generation (Lai et al. 2016).

성과 평가에서 TEA의 사용은 임상 실습에서 보다 학습자 중심의 기회주의적 성과 평가 문화를 개발할 수 있는 기회를 제공하는 WBA(Work Based Assessment) 형식을 사용하는 데 특히 영향을 미쳤다. 프로그램 수준 [WBA의 기관 및 국가 모델]은 [테크놀로지 기반 플랫폼과 테크놀로지 기반 포트폴리오]를 사용하여 환자 치료 시에 평가(기회)를 잡아낸다. 이러한 발전의 대부분은 'BYOD(Bring Your Own Device)' 모델(Sundgren 2017)을 사용하여 이루어졌지만, 기회의 불평등을 방지하고 섹션 배경에서 강조했듯이 이러한 접근 방식을 지원할 수 있는 충분한 인프라를 확보할 수 있도록 주의를 기울여야 합니다.

The use of TEA within performance assessment has been particularly impactful using Work Based Assessment (WBA) formats, presenting opportunities to develop more learner-centred, opportunistic cultures of performance assessment in clinical practice. Institutional and national models of programme level WBA operate using technology-based platforms and technology-based portfolios (van der Schaaf et al. 2017; NHS eportfolios 2021), with the use of mobile devices to capture assessment at the point of patient care (Joynes and Fuller 2016; Harrison et al. 2019; Maudsley et al. 2019). Much of this advancement has been facilitated using ‘Bring Your Own Device’ (BYOD) models (Sundgren 2017) but care needs to be taken to avoid inequity of opportunity and to ensure sufficient infrastructure to support these approaches as highlighted in Section Background.

학습자의 개인과 코호트 수준 [진전을 일상적으로 포착하는 평가 관리 시스템]의 성장은 평가에 대한 새로운 접근 방식을 설계하기 위해 [대규모 데이터 세트]를 의미 있게 사용할 수 있게 했다. 평가 프로그램(Pell et al. 2012)에서 [보더라인과 저성과자의 결과를 종단적으로 추적하는 작업]은 평가 품질에 미치는 영향을 점점 더 입증하는 [데이터 중심 순차적 테스트sequential testing 형식]의 구현을 지원했다. [적응형 지식 시험 시스템]을 지원하는 작업은 잠재적으로 고도로 개인화된 응용 지식 테스트 및 피드백의 출현을 보여준다(Collares and Cecilio-Fernandes 2019).
The growth in assessment management systems that routinely capture individual, and cohort level progress of learners has enabled meaningful use of large data sets to design newer approaches to assessment. Work to track the longitudinal consequences of borderline and underperformance in programmes of assessment (Pell et al. 2012) has supported the implementation of data-driven Sequential Testing formats (Pell et al. 2013; Homer et al 2018), which are increasingly demonstrating impact on assessment quality. Work supporting adaptive knowledge testing systems demonstrates the emergence of potentially highly personalised applied knowledge testing and feedback (Collares and Cecilio-Fernandes 2019).

[온라인 테스트에 대한 대규모 글로벌 경험](그리고 단일 모범 답안 형식의 전통적인 사용을 통한 '클로즈드 북' 형식 테스트의 과제)은 오픈 북 테스트 형식과 기술이 가져올 수 있는 기회에 대한 새로운 관심을 불러일으켰다. 이전에는 HPE 내에서 지배적인 평가 형식은 아니었지만, 의학 교육 및 특히 더 광범위한 교육에서 Open Book 또는 'Take home/take away' 테스트 형식의 사용에 대한 실질적인 증거가 있다. 이런 시험이 '클로즈드 북' 형식을 대체하는 것에 대한 방대한 실무 경험이 쌓이기 시작한 것이다. 주장하건대, 이것은 개별적으로 또는 그룹으로 연구와 합성이 필요한 복잡한 문제(예: 많은 보건 문화, 특히 복잡한 임상 결정을 위해 일하는 다학제 팀의 사용에 맞춰 조정)를 설계하고 학습자가 해결해야 하는 매우 정통한 평가 접근 방식을 제시한다. 테크놀로지는 '책'(예: 모바일 기기)을 재정의할 수 있는 실질적인 레버리지를 제공합니다. 사례 연구 2에서 입증되었듯이, [학습자가 어떻게 검색 전략을 개발 및 운영하고, 다른 사람과 협업/연결하여 문제를 해결하는지]를 모니터링하고 이해할 수 있는 잠재력은 '저부담' 평가를 위한 새로운 기회를 제공합니다.
Large scale, global experience of online testing (and the challenges of ‘closed book’ format testing, e.g. through traditional use of Single Best Answer formats) have renewed interest in Open Book test formats and the opportunities that technology may bring (Zagury-Orly and Durning 2021). Whilst previously not a dominant assessment format within HPE, there is substantial evidence about the use of Open Book or ‘take home/take away’ test formats within both medical education (Westerkamp et al. 2013; Durning et al. 2016; Johanns et al. 2017), and particularly within wider education (Bengtsson 2019; Spiegel and Nivette 2021), with extensive practical experience on replacement of closed book formats (Sambell and Brown 2021). Arguably, this presents a highly authentic approach to assessment which challenges faculty to design, and learners to solve, complex problems that require research and synthesis, either individually or in groups (e.g. aligning to the use of multi-disciplinary teams working in many health cultures, particularly for complex clinical decisions). Technology presents a real lever to redefine the ‘Book’ (e.g. a mobile device). The potential to monitor and understand how learners develop and operate search strategies and collaborate/connect with others to solve problems provides new opportunities for ‘lower stakes’ assessments, as demonstrated in Case Study 2.


사례 연구 2
Case Study 2

오픈 북 온라인 평가: 보건 전문 프로그램에 걸친 제도적 구현 사례 연구(국제 의학 대학, 말레이시아)
Open Book Online Assessments: A case study of institutional implementation across health professions programmes (International Medical University, Malaysia)

맥락
Context

그 대학은 2018년에 건강 전문 프로그램에 대한 온라인 평가 시스템(OAS)을 시행했다. OAS는 문제 개발, 시험 후 분석을 통한 지식 기반 및 OSCE 평가 전달, 학습 결과에 기반한 개별 학생 보고서를 제공한다는 점에서 포괄적이었다. COVID-19 팬데믹의 초기 단계에서 OAS는 학생과 교직원을 위한 오프사이트 온라인 시험 플랫폼으로 수정되었다.
The university implemented an online assessment system (OAS) for its health professions programmes in 2018. The OAS was comprehensive in that it allowed for question development, delivery of knowledge-based and OSCE assessments with post-exam analysis, and individual student reports based on learning outcomes. During the early phase of the Covid-19 pandemic, the OAS was modified to be an offsite online test-taking platform for students and staff, as the physical campus space was unable to be used for assessments due to national lockdown restrictions.

우리가 이루려고 했던 것은
What we were trying to achieve

OAS에 프록토링 기능이 없었기 때문에, 오프사이트 온라인 평가를 활성화할 수 없었고, 이러한 적응에서 새로운 문제가 발생했다. 코로나 19로 인한 교수 및 학습 활동의 변경과 비-프록토링 평가가 학생 진행에 미치는 위험을 고려하여, 우리는 저부담 시험에 대한 기존 평가 형식을 사용하여 온라인 비-프록토링non-proctored 시간 기반 오픈 북 평가를 구현했다. 오픈북 시험은 학습 결과에 대해 청사진으로 작성된 지식 응용 항목 형식을 사용했다.
A new challenge emerged from this adaptation as we were unable to invigilate the offsite, online assessment as no proctoring feature existed in the OAS. Given the modifications to teaching and learning activities due to Covid-19 and the risks of non-proctored assessment on student progression, we implemented an online, non-proctored time-based open book assessment using existing assessment formats for low stakes exams. Open book assessments used knowledge application item formats which were blueprinted against learning outcomes.

영향의 지속적인 평가
Ongoing evaluation of Impact

오프사이트 온라인 테스트를 실시한 1차 구현에서는 학생의 데이터 용량 및 기기 제한, 기술 지원 능력, 교직원과 학생 간의 부정행위에 대한 우려에 대한 주요 우려가 강조되었습니다. 이로 인해 [기기 또는 데이터 카파시티]가 있는 학생을 위한 추가 조항과 (외부 보호 소프트웨어 대신) 사내 온라인 활성화의 도입을 포함한 추가 개선이 이루어졌다. 후속 분석 결과, 이러한 개선으로 개별 학생과 코호트 평가 성과는 적응 전 평가와 강하게 상관관계가 있는 것으로 나타났다(Er et al 2020).
The first round of implementation with offsite online test taking highlighted major concerns around data capacity and device limitation of students, ability to provide technical support, and concerns of cheating amongst faculty and students. This led to further improvements including additional provisions for students with device or data capacity and the introduction of in-house online invigilation (instead of external proctoring software). Subsequent analysis showed that, with these improvements, individual student and cohort assessment performance correlates strongly with pre-adaption assessments (Er et al 2020).

테이크홈 메시지
Take home message

오프사이트 온라인 오픈북 평가로 전환할 때, 교수진은 처음에는 오픈북 평가의 사용과 진행에 따른 학생 역량에 미치는 영향에 대해 더 우려했다. 대신, 발생된 문제는 현장검사에서 외부검사로의 테크놀로지 변화와 관련이 있었다. 위기 상황에서 적응할 수 있는 기회를 잡은 것도 유익했지만, 첫 시행 후 평가를 적응시켜 더 개선하는 것도 마찬가지로 중요하다.

When shifting to offsite online open book assessments, faculty were initially more concerned about the use of open book assessments and their impact on student competencies as they progressed. Instead, issues that arose were related to technological shifts from an onsite to an offsite examination. It was beneficial to take the opportunity to adapt during a crisis, but it is also equally important to adapt the assessment after its first implementation to improve it further.



지속적인 코로나 팬데믹에 대응하여, 온라인 테스트를 하는 것이 거의 wholesale로 전환된 덕분에 테스트에 필요한 리소스(공간, 인력)와 테스트 타이밍 및 배치를 개선할 수 있는 기회도 새롭게 볼 수 있었다. 저부담 시험 및 특히 학습 형식에 대한 평가의 경우, 웹과 발터는 비물리적 환경에서 평가와 함께 학습자 참여의 기회를 보여준다. [대규모 시험장을 예약하고 여러 프로그램을 계획하는 제약]은 테크놀로지를 [지능으로 사용]함으로써 통해 해방되었지만, 동시에 학습자 불안과 감정에 대한 물리적 평가 환경의 중요성에 대한 증거가 새롭게 등장했다(Harley et al. 2021). 이러한 평가의 설계, 준비 및 전달에 있어 학습자와 교직원에 대한 지원의 중요성은 아무리 강조해도 지나치지 않으며(Tweed et al. 2021), 여기에 더 넓은 교육 자원을 게시할 수 있는 기회를 제공한다(Wood 2020a, 2020b).

The near wholesale switch to online test delivery in response to the ongoing Covid pandemic has also allowed a fresh look at resources needed for testing (space, staffing) and opportunities to improve the timing and deployment of testing. For lower stakes tests, and particularly assessment for learning formats, Webb and Valter demonstrate the opportunities for learner engagement with assessment in non-physical settings. The constraints of booking large exam halls and scheduling multiple assessments within, and across, programmes are liberated through the intelligent use of technology, with emerging evidence about the importance of the physical assessment environment on learner anxiety and emotion (Harley et al. 2021). The importance of support for learners and faculty in the design, preparation, and delivery of such assessments cannot be overstated (Tweed et al. 2021), with the opportunity to signpost wider education resources there (Wood 2020a, 2020b).

 

원칙 4: 평가 전달 및 학습자 성과 기록 최적화
Principle 4: Optimising assessment delivery and recording of learner achievement

이 합의의 향후 반복에서 2020-2021년을 돌아보고 평가에 대한 COVID-19의 가장 큰 영향을 검토하는 것은 흥미로울 것이다. 그러나 이 단계에서 TEA의 가장 가시적인 영향은 [평가 전달delivery]에 있었다. 온라인 지식 테스트의 성장은 효과적인 대량 온라인 테스트의 출현을 목격했다. 여기서 테크놀로지는 시험과 자동 채점의 전달을 지원하는 데 사용된다. 정교한 평가 관리 시스템(문제은행도 제함공)은 공인된 합격선 설정 방법(예: Ebel, Angoff)의 자동 적용을 지원합니다. 또한 테크놀로지VSA(Very Short Answer) 질문을 포함한 대체 지식 테스트 형식의 전달 및 자동 채점을 가능하게 하여, 응시자가 자유 텍스트를 사용하여 답변할 수 있도록 하고 머신 러닝 알고리즘을 사용하여 대부분의 채점을 수행할 수 있도록 했다(Sam et al. 2018).
It would be interesting to look back at 2020–2021 in future iterations of this consensus and review the biggest impact Covid-19 had on assessments—but at this stage, the most visible impacts of TEA have been on assessment delivery. The growth of online knowledge testing has seen the emergence of effective mass, online testing where technology is used to support the delivery of testing and automated marking. Sophisticated assessment management systems (which also provide item banking) support the automated application of recognised standard setting methods, e.g. Ebel, Angoff. Technology has also enabled the delivery and automated marking of alternative knowledge testing formats including VSA (Very Short answer) questions, allowing candidates to answer using free text, and the use of machine learning algorithms to undertake most of the marking (Sam et al. 2018).

또한 [평가 관리 시스템Assessment Management System]수행능력 평가에서 채점 및 자동화된 합격선 설정(예: 경계선 방법 사용)을 제공하며, 특히 OSCE는 모바일 장치를 사용한 채점 등을 통해 학습자에게 피드백을 포착할 수 있다. ['버추얼' OSCE]의 부상은 [고품질의 방어 가능한 평가]를 만들어내는 데 필요한 [복잡한 로지스틱스]를 포함하여, 무엇것을 완전히 가상 형식을 사용하여 진정한 평가를 할 수 있는지(또는 할 수 없는지)를 재개념화할 수 있는 기회를 보여주었다(Boursicot et al. 2020). 이러한 경험의 대부분은 TEA를 테크놀로지 강화 의료(예: 온라인/가상 환자-전문가 상담의 일상적인 사용)와 연계할 필요성에 초점을 맞추는 데 도움이 되었다. 원칙 3에서 강조했듯이, WBA 전달을 용이하게 하기 위한 모바일 장치의 사용은 점진적으로 증가했지만, [프로페셔널리즘 평가에 대한 테크놀로지의 영향]은 덜 확산되었다. 예를 들면 여기에는, [360/멀티 소스 피드백의 완전한 온라인 시스템]에서부터, [피드백을 즉시 제공하거나 학습자의 웰빙 또는 행동에 대한 우려를 즉시 제기]하는 테크놀로지 연결의 힘에 대한 적극적인 연구 등이 있다(JISC 2020).
Assessment Management Systems also supports the delivery of marking and automated standard setting (e.g. using Borderline Methods) in performance assessment, notably OSCEs, e.g. through scoring using mobile devices, which can also capture feedback to learners. The rise of ‘virtual’ OSCEs has demonstrated opportunities to further reconceptualise what can (and cannot) be authentically assessed using a fully virtual format, including the complicated logistics needed to return a high-quality, defensible assessment (Boursicot et al. 2020). Arguably, much of this experience has helped focus on a need to align TEA with technology-enhanced healthcare (e.g. the routine use of online/virtual patient-professional consultations). As highlighted in Principle 3, the use of mobile devices to facilitate the delivery of WBA has grown progressively, but less well-disseminated has been the impact of technology on delivering professionalism assessment, e.g. from fully online systems of 360/multi-source feedback, through to active research into the power of technology connectivity to instantly provide feedback or immediately raise concerns about a learner’s well-being or behaviour (JISC 2020).

평가에 테크놀로지를 사용하는 것은 평가 품질 분석, 사후 측정 기준 및 점수 보고에도 강력한 이점을 제공했다(Boursicot et al. 2021). [테크놀로지 기반 포트폴리오]는 [연계된 다양한 'artefacts'(즉, 성과 자체, '점수', 평가자 피드백 및 후보 반영)]을 통해 [누적적이고 종단적인 학습 성과를 기록할 수 있는 기회]가 생기고, 이는 진정으로 지속 가능한 평가에 영향을 미칠 수 있는 강력한 저장소를 제공합니다. 평가 및 피드백 증거의 포괄적인 저장소는 평가 프로그램 및 프로그램 평가 접근법에서 학습자 진행에 대한 효과적인 의사 결정의 중심이다. [TEA의 결과로 포착된 광범위한 데이터]는 OSCE 내의 검사자 행동과 의사 결정에 대한 강력한 통찰력을 제공하여 사례 연구 3에서 입증한 바와 같이 테크놀로지가 OSCE 품질을 더욱 향상시킬 수 있는 방법에 대한 추가 연구(비디오와 같은 간단한 기술을 사용)를 생성합니다.

The use of technology within assessment has also provided powerful benefits to the analysis of assessment quality, post-hoc metrics, and score reporting (Boursicot et al. 2021). The opportunities to record cumulative and longitudinal learner achievement through a range of linked ‘artefacts’ (i.e. the performance itself, the ‘score,’ assessor feedback, and candidate reflection) within a technology-based portfolio presents a powerful repository to influence truly sustainable assessment. A comprehensive repository of assessment and feedback evidence is central to effective decision-making about learner progression in programmes of assessment and programmatic assessment approaches. The extensive data captured as a result of TEA provides powerful insights into examiner behaviour and decision making within the OSCE, generating further research (using simple technology, such as video) into how technology might further augment OSCE quality, as demonstrated in Case Study 3.


사례 연구 3
Case study 3

[분산형 OSCE의 품질보증]을 강화하기 위한 방법으로서의 비디오 기반 Examiner Score 비교 및 조정(VECA) (Peter Yeates, Keele Medical School, UK)
Video-based Examiner Score Comparison and Adjustment (VESCA) as a method to enhance quality assurance of distributed OSCEs (Peter Yeates, Keele Medical School, UK)

맥락
Context

응시자의 숫자 때문에 대부분의 기관은 각각 다른 검사 그룹을 가진 여러 개의 OSCE(객관 구조 임상 검사) 병렬 회로를 운영한다. 이러한 서로 다른 '시험관-단체'들이 모두 같은 기준으로 학생들을 판단하는 것은 타당성 사슬에 매우 중요하다. 기존 문헌은 검사자-코호트 효과가 응시자의 점수에 중요한 영향을 미칠 수 있다고 제안하지만, 이러한 효과의 측정은 일반적으로 다른 검사자-코호트가 판단하는 후보 간 교차점이 없기 때문에 어렵다(즉, 완전히 네스팅된 설계).

Owing to candidate numbers, most institutions run multiple parallel circuits of Objective Structured Clinical Exams (OSCEs), with different groups of examiners in each. It is critical to the chain of validity that these different ‘examiner-cohorts’ all judge students to the same standard. Whilst existing literature suggests that examiner-cohort effects may importantly influence candidates’ scores, measurement of these effects is challenging as there is usually no crossover between the candidates which different examiner-cohorts judge (i.e. fully nested designs).

우리가 달성하려고 했던 것은 무엇인가?
What were we trying to achieve

우리는 OSCE에서 완전히 네스팅된 평가자 코호트의 일반적인 문제를 극복하기 위해 기술 지원 방법을 개발하는 것을 목표로 했다.
We aimed to develop a technology-enabled method to overcome the common problem of fully nested examiner-cohorts in OSCEs.

우리가 한 일
What we did

우리는 '비디오 기반 시험자 점수 비교 및 조정(VESCA)'이라는 3단계 절차를 개발했다. 여기에는 다음이 포함된다.

  • (1) OSCE의 모든 스테이션에서 학생들의 자원봉사 샘플을 비디오로 촬영한다.
  • (2) 또한 모든 검사관examiner에게 스테이션-특이적 비교군comparator 비디오 점수를 매기도록 요청합니다(모든 검사관-코호르트가 동일한 비디오 점수를 매김).
  • (3) 비디오 기반 점수에 의해 제공되는 연결을 사용하여 많은 면 래쉬 모델링을 사용하여 검사자-코호트 효과를 비교하고 조정한다.

We developed a three-stage procedure called ‘Video-based Examiner Score Comparison and Adjustment (VESCA).’ This involved

  • (1) videoing a volunteer sample of students on all stations in the OSCE;
  • (2) asking all examiners, in addition, to live examining, to score station-specific comparator videos (collectively all examiner-cohorts scored the same videos);
  • (3) using the linkage provided by video-based scores to compare and adjust for examiner-cohort effects using Many Facet Rasch Modelling.

영향의 지속적인 평가
Ongoing evaluation of impact

카메라를 배치하려면 학생의 성과를 방해받지 않고 볼 수 있도록 세심한 최적화가 필요했고 침입을 완화했습니다. 비디오 스코어링은 OSCE에 추가적인 시간 요구 사항을 부과했지만 데이터는 인터넷을 통한 지연 스코어링의 동등성을 지원하여 실현 가능성을 향상시켰다. 학생들은 일반적으로 표준화를 강화하기 위한 절차를 환영했다. 점수 조정은 링크 비디오 수 또는 심사관 참여율의 변동에 대해 허용될 정도로 강력했다. 시험관-코호트 효과는 학생 점수의 표준 편차 이상을 설명하면서 때때로 상당했다. 그에 따라 점수를 조정하면 상당한 소수 학생들의 합격/불합격 결정에 영향을 미치거나 그들의 순위를 크게 바꿀 수 있다.

Camera placement required careful optimisation to provide unobstructed views of students’ performances whilst mitigating intrusion. Scoring videos imposed additional time demands on the OSCE but data supported equivalence of delayed scoring via the internet thereby enhancing feasibility. Students generally welcomed procedures to enhance standardisation. Score adjustments were acceptably robust to variations in the number of linking videos or examiner participation rates. Examiner-cohort effects were sometimes substantial, accounting for more than a standard deviation of student scores. Adjusting scores accordingly could influence the pass/fail decisions of a substantial minority of students or substantially alter their rank position.

테이크홈 메시지
Take home message

VESCA는 개별 기관, 평가 파트너십 또는 국가 시험 기관이 다중 회로 또는 분산/국가 OSCE 시험의 품질을 향상시키고 공정성을 보장할 수 있도록 지원하는 유망한 기술 지원 방법을 제공한다(Yeates et al. 2020, 2021a, 2021b, 2022).VESCA offers a promising technology-enabled method to assist individual institutions, assessment partnerships, or national testing organisations to enhance the quality and ensure fairness of multi-circuit or distributed/national OSCE exams (Yeates et al. 2020, 2021a, 2021b, 2022).


전달, 분석 및 점수 보고 외에도, 테크롤로지를 광범위하게 사용하다보면, [테스트 보안, 부정행위 및 후보 추궁에 대한 상당한 의견]을 유발한다. 이 논평은 5가지 핵심의 신중한 균형을 강조합니다. 다음과 같이 요약될 수 있다.

  • 신뢰: 평가를 제공하는 기관, 교직원 및 후보자 자신(그리고 향후 평가에 대한 후속 신뢰와 신뢰)
  • 프로페셔널리즘: 그리고 평가 제공 내부 및 주변에서 후보자와 교수진의 기대
  • 적극적 프록토링: 문맥과 무관한 분산이나 후보 또는 교수진에게 추가적인 인지 부하를 주지 않으며 디지털 불평등을 심화시키는 복잡한 브라우저 시스템/장치에 액세스할 필요가 없는 온정적이고 비례적인 응답
  • 탐지 및 보안: 평가 내 학업 오류, 보안 테스트 뱅크 위반 또는 타사 또는 클라우드 기반 시스템에 의해 저장될 수 있는 후보 특성/성능 데이터의 우발적 손실.
  • 결과: 학문적 과실이 발견되었을 때 제재 측면에서뿐만 아니라 학습자, 전문가 및 환자의 신뢰를 강화하는 측면에서도 마찬가지이다.

Beyond delivery, analysis, and score reporting, the extensive use of technology has generated substantial comments about test security, cheating, and candidate proctoring (Roberts et al. 2020; Bali 2021; Selwyn et al. 2021). The commentary highlights the careful balance of 5 key, overlapping issues which can be best summarised as:

  • Trust: In the institution delivering the assessment, within and amongst Faculty and candidates themselves (and the subsequent confidence and trust in future assessments)
  • Professionalism: and the expectations of candidates and faculty within, and around, the delivery of assessments
  • Active proctoring: compassionate and proportionate responses that do not introduce context irrelevant variance, or additional cognitive load on candidates or Faculty, nor require access to complex browser systems/devices that widen digital inequity
  • Detection and security: of both academic malpractice within an assessment, the breach of e.g. a secure test bank, or inadvertent loss of candidate characteristics/performance data that may be stored by a third party or cloud-based systems.
  • Consequences: both in terms of sanctions when academic malpractice is detected, but also to reinforce the trust of learners, professionals, and patients

현재까지 데이터에 따르면 일부 대규모 국가 평가는 온라인/오프라인 테스트 전달과 비교하여 후보 성과에 차이가 없다고 보고하는 등 보안과 관련하여 테스트 기관 전반에 걸쳐 매우 혼합된 경험을 제시한다. 보다 광범위하게, 테크롤로지는 '부정행위 계약contract cheating'의 성장을 실질적으로 가능하게 했다. 이는 [아웃소싱된 학습자 평가]와 [아웃소싱 평가를 완료한 사람(개인 및 기업)] 간의 결과 균형을 요구한다. 또한 제도적 관행과 입법 모두에 문제를 남긴다.
Data to date suggests very mixed experiences across testing institutions in relation to security, with some larger scale national assessments reporting no differences in candidate performance comparing online/offline test delivery (Andreou et al. 2021; Hope, Davids, et al. 2021; Tweed et al. 2021). More widely, technology has substantially enabled the growth of ‘contract cheating,’ requiring a balance of consequences across learners ‘outsourcing’ assessment and those completing the outsourcing (individuals and companies) and challenges both institutional practices and legislation (Ahsan et al. 2021; Awdry et al. 2021).

원칙 5: 학습자 진행 상황 및 교수 활동 추적—종방향 학습 및 지속적인 평가 지원
Principle 5: Tracking learner progress and faculty activity—supporting longitudinal learning and continuous assessment

테크놀로지 사용은 평가 프로세스와 실무에서 잠재적으로 혁신적이었지만, 학습자 진급에 대한 테크놀로지 주도 '결정'의 출현은 상당한 도전과 우려를 제기합니다. 의료 분야에서 '인공지능'(AI)의 보다 광범위한 사용은 질병의 조기 발견 또는 보다 정확한 진단에 잠재적인 이점을 제공한다(예: 류 외 2019; Yan 외 2020). 그러나 브루사드는 [모든 데이터가 궁극적으로 인간에 의해 생성되기 때문에 잘못된 의사 결정, 코딩 및 출력 사용에 대한 책임은 인간에게 있다]고 강조한다(Broussard 2018).
Whilst the use of technology has been potentially transformational in assessment processes and practice, the advent of technology-driven ‘decisions’ on learner progress presents significant challenges and concerns. The use of ‘artificial intelligence’ (AI) more widely in healthcare presents potential benefits in the early detection of disease or more accurate diagnosis (e.g. Liu et al. 2019; Yan et al. 2020). However, Broussard highlights that all data is ultimately generated by humans, so the challenge for ‘AI’ of poor decision making, the responsibility for coding and use of any outputs remains with humans (Broussard 2018).

교육에서 AI 기반 기술은 학습 또는 웰빙과 관련하여 학습자의 [성공을 예측]하거나, [특정 지원이 필요한 사람]을 탐지할 수 있는 기회를 예고했다(JISC 2020). 그러나 학습자와 교수진에 대한 이러한 테크놀로지의 성과를 살펴보는 고품질 경험적 연구는 거의 없다(Sonderlund et. 2019). 평가 내에서 논평은 개별 평가 내에서 또는 종단적 데이터 세트의 분석을 통해 기계 기반 의사 결정에 초점을 맞췄다(Hope, Dewar, et al. 2021).
In education, AI-based technologies have heralded opportunities to predict learner success or detect those in need of targeted support, whether relating to learning or well-being (JISC 2020). However, there is little high-quality, empirical research that looks at the outcomes of such technology on learners and faculty (Sonderlund et. 2019). Within the assessment, commentaries have focused on either machine-based decision-making within individual assessments (Hodges 2021) or through the analysis of longitudinal data sets (Hope, Dewar, et al. 2021).

광범위한 교육에서 데이터 처리 및 학습자 분석이 TEA의 일부로 사용되는 방법에 대한 몇 가지 접근법이 있었다. 시스템의 설계, 데이터 처리 또는 결과의 이해/적용 불량으로 인해 '프로파일과 예측'이 실패할 수 있으며, 이는 학습자에게 불명확한 결과, 학습자에게 부정적인 영향(실패에 대한 두려움을 강화함) 또는 '게임 행동'을 초래할 수 있다. 교수진과 기관에 의한 그러한 시스템에 대한 이해와 적용은 동등하게 중요하다(Lawson et al. 2016). 이와는 대조적으로, 사례 연구 4에 나타난 바와 같이, 지능형 시스템 설계와 데이터의 목적적 사용은 미래의 실패 위험에 있는 학습자를 식별하고 의미 있게 지원하기 위해 데이터를 사용하거나(Foster and Siddle 2020), 자율 규제와 더 나은 학습자 선택(Broos et al. 2020)을 지원하는 데 사용될 수 있다. 현재의 과제는 이 원칙이 학습에 대한 의미 있는 영향의 측면에서 교육에 대한 혼합 결과를 강조하는 제한된 공개된 증거 기반 내에 있다는 것이다(2019년 슘과 행운).
Within wider education, there have been several approaches to how data processing and learner analytics have been used as part of TEA. Poor design of systems, data processing, or understanding/application of outcomes can lead to failure in ‘profile and predict,’ resulting in either unclear outcomes for learners (Foster and Francis 2020), negative impact on learners (through reinforcing the fear of failure) or development of ‘gaming behaviours’ (Archer and Prinsloo 2020). Of equal consequence is poor understanding and application of such systems by faculty and institutions (Lawson et al. 2016). In contrast, intelligent systems design and purposeful use of data can be used to ‘gather and guide,’ using data to identify and meaningfully support learners at risk of future failure (Foster and Siddle 2020) or support self-regulation and better learner choices (Broos et al. 2020), as shown in Case Study 4. A current challenge is that this principle is situated within a limited published evidence base which highlights mixed outcomes for education in terms of meaningful impact on learning (Shum and Luckin 2019).


사례 연구 4
Case study 4

지속적인 학습 및 평가 준비를 위한 온라인 형태 형성 평가, 학생 피드백 및 학습 분석 안내(호주 시드니 대학 Karen Scott)
Online formative assessment for continuous learning and assessment preparation, guided by student feedback and learning analytics (Karen Scott, University of Sydney, Australia)

맥락
Context

4년제 시드니 메디컬 프로그램의 학생들은 8주간의 소아과 블록에 참여한다. 대부분의 70~80명의 학생들은 시드니 웨스트메드에 있는 아동병원에 1일차 오리엔테이션, 5주차 수업, 8주차 시험을 위해 있으며, 8~12명의 학생들은 시골 병원에 있다. 나머지 블록에서 학생들은 어린이 병원, 광역 및 농촌 병원, 지역사회 보건 센터에서 임상 배치를 받는다.
Students in the four-year Sydney Medical Program undertake an 8-week paediatric block. Most of the 70–80 students are at The Children’s Hospital at Westmead, Sydney for the Day 1 orientation, Week 5 teaching, and Week 8 examinations; 8–12 students are at rural hospitals. For the remaining block, students undertake clinical placements at the Children’s Hospital, metropolitan and rural hospitals, and community health centres.

우리가 달성하려고 했던 게 뭐죠?
What were we trying to achieve?

소아과는 일반 소아과, 소아외과, 그리고 30개 이상의 하위 전공으로 구성되어 있다. 이 광범위한 교육과정에 걸쳐 학생들은 다양한 대면 및 가상 소규모 및 대규모 그룹 교육 세션을 준비하고, 학습을 통합, 검토 및 확장해야 합니다. 학생들은 블록 말기 필기시험과 임상시험도 준비해야 하며, 기말고사는 필기시험이 있다. 
Paediatrics comprises general paediatrics, paediatric surgery, and over 30 sub-specialties. Across this broad curriculum, students need to prepare for a range of face-to-face and virtual small- and large-group teaching sessions, and consolidate, review and extend their learning. Students also need to prepare for end-of-block written and clinical examinations, and final-year has written examinations.

우리가 한 일
What we did

실질적인 온라인 자기 주도형 형성 평가가 개발되었다. 대부분은 전개, 사례 기반 학습으로 구성되어 핵심 지식을 임상 사례에 적용할 수 있다. 일부는 핵심 지식을 학습의 통합 및 확장을 위한 실습 활동과 통합한다. 모든 기능에는 광범위한 자동 피드백이 포함되어 있으며 일부는 보조 웹 링크가 포함되어 있습니다. 핵심지식개발(주로 짧은 포맷으로 녹음된 강의)에 초점을 맞춘 온라인 자료에는 자가테스트를 위한 형성 평가와 이를 통한 장기지식 보유가 포함된다.
Substantial online self-directed formative assessment has been developed: most comprise unfolding, case-based learning, enabling the application of core knowledge to clinical cases; some integrate core knowledge with practice activities for consolidation and extension of learning. All include extensive automated feedback, some with supplementary web links. Online materials focusing on core knowledge development (primarily short format recorded lectures) include formative assessment for self-testing and through this, long-term knowledge retention.

영향 평가
Evaluation of impact

학습 분석 및 학생 설문 조사에 따르면 대부분의 학생들은 대부분의 형태별 평가를 수행하며 더 많은 것을 원합니다! 최근 학습 분석과 평가 결과를 비교한 결과 학생들의 평가 결과는 일반적으로 형성적 평가를 사용하는 범위와 일치한다.
Learning analytics and student surveys show most students do most formative assessments—and want more! A recent comparison of learning analytics and assessment results highlights that students’ assessment results generally correspond with the extent to which they use formative assessment.

테이크홈 메시지
Take-home message

이 연구 결과는 모든 학생(특히 미니멀리스트 접근법을 취하는 학생)이 온라인 형성 평가를 잘 활용하도록 장려하기 위해 의료 프로그램 전체에 전달되고 있다.

This finding is being communicated throughout the Medical Program to encourage all students (especially those taking a minimalist approach) to make good use of online formative assessment.


 

[교육학적 원칙과 좋은 테크놀로지 설계]에 부합하면 TEA는 '올바른 데이터'를 수집하는 데 상당한 이점을 제공할 수 있으며, 이는 인간의 인지 부하를 해방시켜 데이터를 더 잘 이해하고 따라서 교수진의 시간을 학습자 지원에 집중할 수 있다. 여기에는 데이터 기반 신속한 교정조치(리케츠 및 블라이 2011), 코칭 및 멘토링 접근법(말레카 및 바우드 2021), 행동 넛지(담가드 및 닐슨 2018), 예방적 개입으로 (잠재적) 연말 실패 시점을 앞두고 적용되는 전문가 사례 관리가 포함될 수 있다(윈스턴 외 2012). 그러나 광범위한 데이터 수집은 [학습의 관리를 책임지는 사람들]과 [독립적인 행위자agents으로서 학습자 자신] 사이에 긴장을 야기할 수 있다(Tsai et al. 2020). [데이터 소유권에 대한 문제]는 문헌에 의해 대부분 해결되지 않았지만 가장 중요하다.
When aligned to pedagogic principles and good technology design, TEA can provide substantial benefits in collecting the ‘right data,’ freeing up the cognitive load of humans to better understand the data and therefore focus faculty time on learner support. This can include data-driven rapid remediation (Ricketts and Bligh 2011), coaching and mentoring approaches (Malecka and Boud 2021), considered use of behavioural nudges (Damgaard and Nielsen 2018) and specialist case management to be applied ahead of a (potential) end of year point of failure as a preventive intervention (Winston et al. 2012). However, extensive data collection may cause tensions between those responsible for the management of studies and learners themselves as independent agents (Tsai et al. 2020). This question of data ownership remains largely unanswered by the literature but is of paramount importance.

그러나 [평가 설계에 대한 테크놀로지의 지능적 적용]은 특히 포트폴리오 도구의 개발을 통해 학습자 자신의 종단적 참여를 변화시킬 수 있다. Driessen(2017) [포트폴리오]가 [관료적 도구로 보이는지] 또는 [학습 및 평가의 진정한 가능자enabler로 보이는지]에 따라 달라지는 포트폴리오의 함정을 강조한다. Silveira(2013)는 음악과 예술 교육의 교훈을 바탕으로, [포트폴리오]는 [학습과 피드백을 위한 커뮤니케이션 도구]이며, [학습자를 적극적으로 참여시키고 더 나은 자기 조절, 오너십/큐레이션, 종적 개발을 촉진할 수 있는 강력한 기회]를 제시한다고 본다. 그러나 쉽게 접근할 수 있는 포트폴리오에서 성찰의 요건(평가 구성요소)과 '고해성사로서의 성찰'의 심리적 해악에 대해 주의를 기울여야 한다(Hodges 2015). 포트폴리오 평가의 효과적인 활용을 위해 학습자, 감독자 및 역량 위원회를 지원하는 것은 필수적이다(Oudkerk Pool et al. 2020; Pack et al. 2020).

However, the intelligent application of technology to assessment design can transform the longitudinal engagement of learners themselves, particularly through the development of portfolio tools. Driessen (2017) highlights the pitfalls of portfolios depending on whether they are seen as bureaucratic tools or true enablers of learning and assessment. Drawing on the lessons from music and arts education, seeing portfolios as communication tools for learning and feedback, Silveira (2013) presents powerful opportunities to actively engage learners and promote better self-regulation, ownership/curation, and longitudinal development (Clarke and Boud 2018). Caution however needs to be exercised about the requirement of reflection (as a component of assessment) in an easily accessible portfolio, and the psychological harm of ‘reflection as confession’ (Hodges 2015). Supporting learners, supervisors, and competence committees in the effective use of portfolio assessment is essential (Oudkerk Pool et al. 2020; Pack et al. 2020).

테크놀로지는 [학습자에 대한 광범위한 데이터를 수집하고 이해할 수 있는 능력]을 갖추었으므로, 기본적으로 평가자(직장 및 시뮬레이션 평가 모두)와 평가 품질 개선에 대한 기관의 반응에 강력한 렌즈를 제공합니다. 학습자를 지원하기 위한 패러랠 메커니즘으로서, 이 데이터는 목표 지원targeted support나(예: 집중 OSCE 검사자 교육(Gormley et al. 2012) 더 나은 평가자 참여를 촉진하기 위해 TEA(예: 웹 양식, 앱)의 재설계를 추진할 수 있다. 
With the ability to collect and understand extensive data about learners, technology, by default, provides a powerful lens into assessors (both in the workplace and simulated assessment) and the responses of the institution to driving assessment quality. In a parallel mechanism to supporting learners, this data can drive targeted support, e.g. focused OSCE examiner training (Gormley et al. 2012), or redesign of TEA (e.g. webforms, apps) to facilitate better assessor engagement.

4차 산업 혁명(McKinsey 2022)은 교육자가 직면한 미래를 강조하며, 더 많은 양의 (평가) 데이터와 알고리즘 기반 결과를 기록하는 장치와 공존하여 교수진이 학습자 진행 및 의사 결정을 조정할 수 있도록 지원합니다. 교육 평가educational assessment의 주요 과제는 이러한 [상호 연결을 시각화, 연결, 영향 및 연구하는 방법]에 초점을 맞춘다. 개발자, 기술자 및 교육자 간의 증강 및 인공지능의 함정과 잠재력을 더 잘 이해하려면 지속적으로 발생하는 윤리적 문제에 대응할 필요가 있다(Selwyn 2021). 
The fourth industrial revolution (McKinsey 2022) highlights the future that educators face, coexisting with devices recording larger volumes of (assessment) data and algorithm-based outcomes helping faculty coordinate learner progression and decision making. Key challenges of educational assessment focus on how we visualise, connect, influence, and research this interconnectivity. A better understanding of the pitfalls and potential of augmented and artificial intelligence between developers, technologists, and educationalists needs to interface with the ethical challenges that continue to arise (Selwyn 2021).

3단계: TEA 사용의 영향 보건 전문직 교육 내 평가, 보급 및 가속화
STAGE 3: The impact of TEA usage needs evaluating, disseminating, and accelerating within health professions education

글로벌 팬데믹에도 불구하고, 2020년에는 평가에 대한 기술 솔루션을 포함하여 교육에서의 기술 사용에 있어 혁신 보고서의 급속한 성장으로 돌아왔다(Fuller et al. 2020). 이 생산성 기간 동안 우리는 무엇을 배울 수 있을까? 이러한 위기가 창의적 대응으로 이어지는 것은 놀라운 일이 아니지만, 테크놀로지 기반 창의성에 상당한 자원이 필요하다는 요구는 '소박한 혁신'의 가치를 간과하고 있습니다(Tran and Ravaud 2016). 그러나 이러한 창의성으로부터 배우는 모든 것의 중심은 '설명description'을 넘어, [보급과 의미 있는 학술활동]을 통해 그 영향을 극대화해야 한다는 요구이다(Ellaway et al. 2020).
Despite (and indeed because of) the global pandemic, 2020 saw a return to the rapid growth of innovation reports in technology use in education, including technological solutions to assessment (Fuller et al. 2020). What can we learn from this period of productivity? That crisis leads to creative responses is unsurprising, but a requirement that technology-based creativity requires substantial resources overlooks the value of ‘frugal innovation’ (Tran and Ravaud 2016). However, central to any learning from this creativity is a requirement to move beyond ‘description’ and maximise its impact through dissemination and meaningful scholarship (Ellaway et al. 2020).

HPE를 통한 TEA의 학술적 연구 보급은 북미, 유럽, 오스트랄라시아에 걸쳐 개인 및 소규모 그룹의 출판물에 의해 주로 이루어졌다. 아시아 태평양 지역의 생산량이 증가하고 있지만, 아프리카와 남아메리카의 출판물은 거의 남아 있지 않다. TEA가 전 세계적으로 HPE에 진정한 혜택을 주기 위해서는 기술 지원 평가의 설계, 구현 및 평가의 내러티브도 다양성이 필요합니다. 이러한 다양성은 HPE(예: 주제별 통화, 혁신 보고서)에 반영되며 빠르게 변화하는 교육 설계 및 소셜 미디어 영역의 단서로부터의 학술활동 채택으로 인해 반영된다. 이러한 접근 방식은 TEA에 초점을 맞춘 학술 출판물이 실무자의 의견을 통해 협력적이고 점진적으로 구축될 수 있음을 의미한다.
Dissemination of scholarly work in TEA across HPE has largely been dominated by publications from individuals and small groups across North America, Europe, and Australasia. While there is a growing trend of output from the Asia Pacific region, publications from Africa and South America remain few. For TEA to truly benefit HPE globally, the narratives of design, implementation and evaluation of technology-enabled assessments need diversity too. This diversity is reflected within HPE (e.g. thematic calls, innovation reports) and from the adoption of scholarship from cues in the fast-changing realm of instructional design and social media. Such approaches mean that scholarly publications focused on TEA can be built collaboratively and progressively with input from practitioners.

교육 내에서 [지속적으로 새로운 테크놀로지를 채택]하는 실험적인 특성은 [장단기 의도된 결과와 의도하지 않은 결과]의 프레임워크에 적합하다. 이를 위한 '최선의' 방법에 대해서는 HPE 전체에서 합의가 이루어지지 않았지만, 서로 다른 프레임워크는 과정 또는 프로그램 수준 평가(Cook 및 Ellaway 2015) 또는 단일 자원 평가(Pickering and Joynes 2016)에 대한 제안을 제공한다. 이러한 프레임워크의 핵심은 [어떤 형태로든 영향의 evaluation와 assessment가 이루어져야 하며], [TEA 혁신이 학습 경험, 행동 또는 프로세스에 진정한 차이를 가져왔는지] 또는 [기존의 평가에서 일부 긍정적인 요소가 손실되었는지]에 대해 고려해야 한다는 것이다(William 2021).).
The experimental nature of continually adopting new technologies within education lends itself well to frameworks of short- and long-term intended and unintended consequences. There is no agreement across HPE on the ‘best’ way to do this, but different frameworks offer suggestions for course or programme level evaluations (Cook and Ellaway 2015) or for evaluation of a single resource (Pickering and Joynes 2016). The key point of these frameworks remains that evaluation and assessment of impact need to occur in some form and that consideration is given to whether a TEA innovation has truly made a difference to learning experiences, behaviours, or processes, or whether some positive elements have been lost from the assessment which came before (William 2021).

마무리 멘트
Concluding remarks

팬데믹으로 인해 더 넓은 교육이 계속해서 형성되고 있는 상황에서, 미래는 무엇을 유지할 것인가? 국제 고등 교육 정보 기술 그룹 Educause는 디지털 기술이 교육 및 평가를 지속적으로 형성하는 방법을 탐구하기 위해 '복원', '진화', '변환'의 세 가지 모델을 제안합니다(EDUCHAUSE 2021). 저자들은 일련의 대안, 전염병 이후의 미래를 지적하지만, [어포더빌리티, 디지털 보안, 디지털 형평성 및 교육에 대한 평등한 접근 문제]가 TEA에 대한 우리의 전략적 접근 방식을 형성해야 하는 원동력이 될 것이다.

With wider education continuing to be shaped by the pandemic, what does the future hold? The international higher education information technology group Educause proposes three models—‘restore,’ ‘evolve,’ and ‘transform’—to explore how digital technologies may continue to shape education, and assessment (EDUCAUSE 2021). The authors point to a series of alternative, post-pandemic futures, but where issues of affordability, digital security, digital equity, and equitable access to education will be the driving forces that must shape our strategic approaches to TEA.

향후 10년간의 기술 동향에 대한 예측은 일, 건강 및 사회(Gartner 2015)에 대한 광범위한 변화를 강조할 수 있지만, HPE의 보다 근본적인 것은 학습 테크노롤지가 어떻게 사람에 초점을 맞추도록(예: 창의성과 혁신, 학습자 행위자성 및 웰빙) 축을 전환할 것이냐이다. 이러한 것들은 학습자의 자기 조절, 개발, 기여 및 자기 관리를 지원하기 위해 이러한 기술에 참여하는 학습자의 능력을 어떻게 '평가'하는지 생각하는 TEA에게 흥미로운 잠재력을 제공합니다. 테크놀로지 미래학자들은 '인간만의 특성'(예: 동정심, 창의성)을 우리가 배우는 것만큼 점점 더 가치가 있다고 지적하고, 더 많은 자동화를 사용하여 의료 서비스를 제공한다(Leonhard 2021). 테크놀로지와의 공존을 위해서는, 이러한 특성, 관행 기반 윤리 및 의사 결정(및 자동화된 시스템으로부터의 포기)을 어떻게 '평가'하는지가 HPE의 평가에 대한 주요 과제일 것이다.
Whilst predictions around technology trends of the next 10 years may highlight broader changes to work, (health), and society (Gartner 2015), more fundamental to HPE is how learning technologies will shift their axes to focus on people—transformative competencies (e.g. creativity and innovation), learner agency and well-being (OECD 2015). These present interesting potential for TEA, thinking about how we ‘assess’ learners' ability to engage with these technologies to support their self-regulation, development, contribution, and self-care. Technology futurists point to ‘human only traits’ (e.g. compassion, creativity) as increasingly valuable as we learn, and provide healthcare, using more automation (Leonhard 2021). How we ‘assess’ these traits, practice-based ethics, and decision making (and abdication from automated systems) in our co-existence with technology will prove major challenges for assessment in HPE.

모든 기여자들이 이러한 합의를 도출하는 과정에서 핵심 주제는 '더 나은 평가 미래'를 진정으로 가능하게 하는 기술의 필요성을 지적합니다. HPE에서, 이것은 이것을 제공하는 데 필요한 학습과 기술에 초점을 맞추고 진정으로 혁신적인 TEA가 기술을 사용한 진정한 평가를 추구하기 위해 평가 라이프사이클뿐만 아니라 학습자, 교수진 및 환자의 요구를 고려하도록 보장하는 것으로 해석된다.

A key theme throughout the development of this consensus from all contributors points to the need for technology to truly enable ‘better assessment futures.’ In HPE, this translates to focus on the learning and skills needed to deliver this and to ensure that truly transformative TEA considers not just the assessment lifecycle, but the needs of learners, faculty, and patients in the pursuit of authentic assessment using technology.

 


Med Teach. 2022 Jun 30;1-15. doi: 10.1080/0142159X.2022.2083489. Online ahead of print.

Technology enhanced assessment: Ottawa consensus statement and recommendations

Affiliations collapse

Affiliations

1Christie Education, The Christie NHS Foundation Trust, Manchester, UK.

2School of Medicine, University of Liverpool, Liverpool, UK.

3International Medical University, Kuala Lumpur, Malaysia.

4Kubify, Leeds, UK.

5School of Medicine, University of Keele, Keele, UK.

6Faculty of Medicine and Health, University of Sydney, Sydney, Australia.

7College of Health and Medicine, Australian National University, Canberra, Australia.

8John Curtin School of Medical Research, Australian National University, Canberra, Australia.

9Center for University Teaching and Learning, University of Helsinki, Helsinki, Finland.

PMID: 35771684

DOI: 10.1080/0142159X.2022.2083489

Abstract

Introduction: In 2011, a consensus report was produced on technology-enhanced assessment (TEA), its good practices, and future perspectives. Since then, technological advances have enabled innovative practices and tools that have revolutionised how learners are assessed. In this updated consensus, we bring together the potential of technology and the ultimate goals of assessment on learner attainment, faculty development, and improved healthcare practices.

Methods: As a material for the report, we used the scholarly publications on TEA in both HPE and general higher education, feedback from 2020 Ottawa Conference workshops, and scholarly publications on assessment technology practices during the Covid-19 pandemic.

Results and conclusion: The group identified areas of consensus that remained to be resolved and issues that arose in the evolution of TEA. We adopted a three-stage approach (readiness to adopt technology, application of assessment technology, and evaluation/dissemination). The application stage adopted an assessment 'lifecycle' approach and targeted five key foci: (1) Advancing authenticity of assessment, (2) Engaging learners with assessment, (3) Enhancing design and scheduling, (4) Optimising assessment delivery and recording learner achievement, and (5) Tracking learner progress and faculty activity and thereby supporting longitudinal learning and continuous assessment.

Keywords: Assessment; curriculum; medical education research.

 

논증 이론이 어떻게 평가 타당도에 정보를 제공하는가: 비판적 문헌고찰 (Med Educ, 2022)
How argumentation theory can inform assessment validity: A critical review
Benjamin Kinnear1,2 | Daniel J. Schumacher1 | Erik W. Driessen3 | Lara Varpio4

 

1 소개
1 INTRODUCTION

많은 현대 의료 전문 교육(HPE) 학자들은 [평가의 타당성]을 논증argumentation의 한 형태로 제시한다. 즉, 평가 데이터의 특정한 해석 및 사용에 대한 주장을 의미한다. 그러나 HPE 학자들은 아직 validation을 뒷받침하는 논증argumentation의 철학적, 이론적, 또는 실제적 측면을 탐구하지 않았다. [타당성 주장validity argument]라고 주장하는 것은 종종 평가의 장점을 평가, 우선순위 부여 또는 토론하기 위한, 가이딩 프레임워크가 없는, 그저 증거의 나열일 뿐이다. 이는 증거를 정리할 줄만 알고 [변론이 어떻게 구성돼야 하는지, 누가 변론을 평가할지, 어떻게 변론을 평가할지]는 모르면서 법정 재판을 여는 것과 비슷하다. 우리는 HPE가 우리의 현재 이해와 유효성의 사용을 지원하기 위해 논쟁 이론에 대한 더 깊은 이해를 개발하는 것이 중요하다고 주장한다.

Many modern health professions education (HPE) scholars frame assessment validity as a form of argumentation: A claim about a specific interpretation and use of assessment data.1-4 However, HPE scholars have yet to delve into the philosophical, theoretical, or practical aspects of argumentation that undergird validation. What are purported to be validity arguments are often merely the listing of evidence without a guiding framework to evaluate, prioritise, or debate their merits. This is akin to holding a courtroom trial while only knowing how to organise the evidence, but not knowing how the argument should be structured, who will evaluate the argument, nor how they will evaluate it. We contend that it is vital for HPE to develop a deeper understanding of argumentation theory to support our current understandings and uses of validity.

이것은 타당성에 대한 중요한 통찰이 HPE 학자들에 의해 이미 생성되지 않았다는 것을 말하는 것이 아니다. 아직 멀었지요. 우리 분야의 타당성에 대한 이해는 많은 HPE 연구자들의 연구 덕분에 발전했다. 예를 들어, 

  • 쿡, 하탈라, 그리고 다우닝은 Messick과 Kane의 것과 같은 논증 기반 타당성 프레임워크를 HPE 평가 영역으로 가져오는 데 도움을 주었다. 
  • St. Onge와 Young은 우리 분야의 타당성에 대한 이해의 현재 상태를 파악하는 데 도움을 주었다. 
  • Govaerts, Schwirth, Van der Vleuten 및 다른 사람들은 프로그램적 평가의 맥락에서 타당성에 대한 우리의 현장 관점을 발전시켰다. 

HPE가 [타당성을 주장으로 개념화하도록 진화한 것]은 이들과 다른 학자들 덕분이다. 그럼에도 불구하고, HPE의 현대 타당성 프레임워크의 사용은 타당성 주장에 대한 청중, 구조 및 평가 표준에 대한 명시적인 설명이 부족하다. 따라서 다음과 같은 중요한 질문에 대한 답이 없습니다. 이러한 질문에 대한 답을 알지 못하면 우리 분야는 주장으로서의 타당성 패러다임을 완전히 수용하기에 적합하지 않다.

  • 타당성 주장은 어떻게 그리고 누가 평가해야 하는가? 
  • 타당성 주장은 어떻게 구성되어야 하는가? 

This is not to say that important insights into validity have not already been generated by HPE scholars. Far from it. Our field's understanding of validity has progressed thanks to the work of many HPE researchers.

  • For instance, Cook, Hatala, and Downing have helped bring argument-based validity frameworks, such as those of Messick and Kane,56 into the HPE assessment sphere.1-37-14 
  • St. Onge and Young have helped map out the current state of our field's understanding of validity.415-17 
  • Govaerts, Schuwirth, van der Vleuten, and others have progressed our fields view of validity in the context of programmatic assessment.18-26 

It is thanks to scholars like these, and others, that HPE has evolved to conceptualise validity as argument. And yet, HPE's use of contemporary validity frameworks lack an explicit description of the audiences, structures, and evaluation standards for validity arguments. This leaves important questions unanswered:

  • How should validity arguments be evaluated and by whom?
  • How should validity arguments be structured?

Not knowing the answers to these questions leaves our field ill-equipped to fully embrace the validity-as-argument paradigm.

문헌에 대한 이 비판적 리뷰에서, 우리는 HPE 청중에게 맞춤화된 주장 이론에 대한 설명을 제공하고, 그것이 HPE 평가에 제공할 수 있는 고유한 통찰력을 설명하고, 주장의 다른 접근 방식이 어떻게 우리가 생성적인 방식으로 타당성의 본질을 다시 개념화하는 데 도움이 될 수 있는지를 제시한다. 우리는 주장 이론 내에서 두 가지 다른 방향을 제시하고 각각이 어떻게 타당성 주장을 이해하고, 구조화하고, 평가하는 다른 방법을 만드는지에 대해 논의한다. 이러한 추상적인 이론을 보다 구체화하기 위해, 우리는 이러한 접근 방식을 HPE 관련 사례(상자 1)에 적용한다. 이 사례 토론을 통해, 우리는 논쟁 이론이 우리의 평가 노력을 향상시키는 데 어떻게 도움이 될 수 있는지를 강조한다. 검토를 위해, 우리는 먼저 타당성 주장과 주장 이론의 정의를 제공한다.
In this critical review of the literature, we offer a description of argumentation theory—tailored to the HPE audience—articulating the unique insights it can offer to HPE assessment, and presenting how different approaches to argumentation can help us reconceptualize the nature of validity in generative ways. We present two different orientations within argumentation theory and discuss how each creates different ways of understanding, structuring, and evaluating validity arguments. To make these abstract theories more tangible, we apply these approaches to an HPE-relevant case (Box 1). Via this case discussion, we highlight how argumentation theories can help advance our assessment efforts. To frame our review, we first offer definitions of validity arguments and argumentation theory.


상자 1. 이 사례는 HPE 평가 타당성에서 논쟁 패러다임의 중요성에 대한 실제 사례를 나타낸다. 이 사례는 결과 및 토론 섹션에서 다시 언급할 것이다.
Box 1. 
This case represents a real-world example of the importance of argumentation paradigms in HPE assessment validity. The case is referenced throughout the Results and Discussion sections

사례 연구 – 시간 변동에 따른 프로모션 결정으로 전환되는 APGME 프로그램
Case study – A PGME programme transitioning to time-variable promotion decisions

대학원 의학 교육 프로그램(PGME)은 수년 동안 강력한 평가 프로그램을 개발했다. 프로그램 리더는 문헌 검토 및 새로운 검증 연구를 통해 학습자 성과에 대한 종합적 의사결정에 대한 타당성 증거를 수집했으며, 시간-변동time-variable 교육 접근 방식으로 전환하기를 희망하고 있다. 시간-기반 일정에 따라 관리 수준이 낮은 수준으로 승급되기보다는, [총괄적 진급 결정]이 학습자가 프로그램을 진행하는 시기와 방법을 결정하는 데 그칠 것입니다. 이 잠재적 변화에 대해 중요한 이해관계자(예: 학습자, PGME 리더, 부서 리더, 인증 관계자, 인증 기관)를 참여시킬 때, 프로그램은 보편적으로 다음과 같이 요청된다.

  • "총괄적 진급 결정이 방어가능하다는 것을 어떻게 확신하십니까? 
  • 즉, "올바른 진급 결정을 내릴 수 있다는 당신의 주장argument은 무엇입니까?"라는 것이다. 

프로그램이 그들의 주장을 시작하기 전에, 그들은 대답해야 할 몇 가지 질문이 있었다. 

  • 주장argument은 어떻게 구성되어야 하는가?
  • 어떤 기준으로 평가되어야 하는가?
  • 어떤 청중이 판단을 내릴 것인가?

A post-graduate medical education programme (PGME) has developed a robust programme of assessment over several years. Programme leaders have collected validity evidence for summative decisions about learner performance via literature review and new validation studies, and are hoping to transition to a time-variable training approach. Rather than being promoted to lesser degrees of supervision on a time-based schedule, summative promotion decisions will solely determine when and how learners progress through the programme. When engaging important stakeholders (e.g. learners, PGME leaders, departmental leaders, accreditation officials, certifying bodies) about this potential change, the programme is universally asked,

  • “How do you know your summative promotion decisions are defensible?”
  • In other words, “What is your argument that you can make the right promotion decision?”

Before the programme could begin making their argument, they had several questions that needed to be answered.

  • How should their argument be structured?
  • By what standard would it be evaluated?
  • Which audience(s) would levy judgement?

새로운 수사학이 이 사건을 어떻게 알려줄 수 있을까?
How can new rhetoric inform this case?

프로그램 리더들은 그들의 타당성 주장이 각 [이해관계자 그룹]에 반영될 필요가 있다는 것을 인식한다. 따라서 그들의 주장은 많은 다른 기대에 부응해야 한다.

  • 프로그램 리더는 먼저 어떤 이해관계자가 청중으로 봉사하는 것이 가장 중요한지 확인하고, 그들의 가치를 이해하려고 시도하며, 각 이해관계자 집단이 수용할 수 있을 때까지 그들의 타당성 주장을 반복적으로 구성, 평가 및 다듬는다.
  • 인증 및 인증 기관은 이 특정 PGME 프로그램의 성과와 후과에 관심이 있습니다. 따라서 프로그램의 타당성 주장에는 졸업생들이 돌보는 환자들이 양질의 진료를 받는다는 증거가 포함된다.
  • 대조적으로, 학습자들은 평가 관행의 공정성과 형평성에 대해 염려한다. 따라서 프로그램의 타당성 주장에는 다양한 학습자 정체성 그룹(예: 인종, 민족성, 성 정체성, 장애 상태)이 평가되는 방법과 그룹에 대한 편향의 증거가 있는지에 대한 양적 및 질적 데이터가 포함된다.

The programme leaders recognise that their validity arguments needs to resonate with each stakeholder group; therefore, their argument must to respond to many different expectations.

  • The programme leaders first identify which stakeholders are most important to serve as audiences, attempt to understand their values, and iteratively construct, evaluate, and refine their validity argument until it is acceptable to each stakeholder gorup.
  • Accrediting and certifying bodies are interested in the outcomes and consequences of this specific PGME programme. Therefore, the programme's validity argument includes evidence that patients cared for by graduates receive high-quality care.
  • In contrast, learners are concerned about equity and fairness in assessment practices. Therefore, the programme's validity argument includes quantitative and qualitative data on how different learner identity groups (e.g. race, ethnicity, gender identity, disability status) are assessed and whether there is evidence of bias against any groups.

비공식 논리가 어떻게 이 사건을 알릴 수 있을까?
How can informal logic inform this case?

프로그램 리더는 상당한 양의 타당성 증거를 수집하지만, 처음에는 이해관계자가 평가할 수 있는 설득력 있는 주장으로 정리되지 않았다. [툴민의 모델]을 사용하여 프로그램 리더는 주장, 데이터, 영장warrants, 반박 및 기타 중요한 요소를 signpost하여 청중의 분석을 용이하게 한다. 프로그램 리더와 이해관계자는 타당성 주장이 관련성, 수용성 및 충분성의 측면에서 평가될 것이며 툴민의 모델이 부적절하다고 판단되는 주장의 모든 측면을 식별하는데 사용될 것이라는 데 동의한다.
Programme leaders collect significant amounts of validity evidence, but initially do not have it organised into a cogent argument for stakeholders to evaluate. Using Toulmin's model, the programme leaders signpost claims, data, warrants, rebuttals, and other salient elements, facilitating easier analysis by the audience. Programme leaders and stakeholders agree that the validity arguments will be evaluated in terms of relevance, acceptability, and sufficiency, and that Toulmin's model will be used to identify any aspects of the argument that are deemed inadequate.

논쟁은 언제 완료됩니까?
When is an argument complete?

두 이해관계자 그룹은 프로그램의 [최초 타당성 주장]이 부적절하다고 판단하여, 다른 주장 측면에 대한 [추가 증거와 해명]을 요구했다. 프로그램 리더들은 두 그룹 모두 주장이 받아들여질 수 있다는 것을 발견할 때까지 증거를 수집하고 평가하기 위해 이해관계자들과 반복적으로 협력했다. 프로그램 리더는 유사한 타당성 주장 과정에 다른 이해관계자 집단을 참여시키는 데 자원을 집중할 수 있다.

Both stakeholder groups found the programme's initial validity argument to be inadequate, asking for additional evidence and clarification on different argument aspects. Programme leaders worked iteratively with stakeholders to collect and evaluate evidence until both groups found the argument to be acceptable. Programme leaders could then focus resources on engaging other stakeholder groups in similar validity argumentation processes.


 

1.1 HPE 내부 및 외부의 유효성 주장
1.1 Validity arguments within and beyond HPE

  • [타당성validity]은 [평가 점수에 관한 것]이 아니라, 그 [점수의 해석과 사용]에 관한 것이다.
  • [타당화validation]는 그러한 [해석과 사용을 뒷받침하는 주장을 개발하는 과정]이다.
  • [타당성 주장validity argument]은 [방어 가능한 추론 사슬]을 형성하기 위한, 연결되는 주장(즉, 관련된 현상에 대한 주장)으로 구성된다.

예를 들어, 우리는 역량이 어떻게 정의되는지, 어떻게 그것이 관찰될 수 있는지, 그리고 어떻게 평가될 수 있는지에 대한 주장claims을 한다. 그러나, 이러한 주장claims은 사실의 진술이 아니다; 대신에, 논의되고, 받아들여지고, 반박될 수 있는 주장들assertions이다. 만약 타당성 주장validity argument 내의 주장claims을 객관적이고 정적이며 비활동적인 선언으로 본다면, 그것은 그 안에 내재된 주장 전략argumentation strategies이 너무 널리 사용되고 받아들여져서 우리는 더 이상 그것들을 경쟁 가능한 것으로 인식하지 않기 때문이다. HPE 평가 결정이 근거로 하는 타당성 주장 주장validity argument claims은 논쟁argumentation에 몰두한 주장assertion일 뿐이므로 논쟁의 여지가 있다.

  • Validity is not about assessment scores but rather the interpretations and uses of those scores.27-30 
  • Validation is the process of developing an argument to support those interpretations and uses.29 
  • Validity arguments are comprised of claims—i.e. assertions about the phenomena engaged with—that connect to form a defensible chain of reasoning.

For instance, we make claims about how competence is defined,31 how it can be observed,32 and how it can be assessed.33 However, these claims are not statements of fact; instead, they are assertions that can be debated, accepted, or refuted. If the claims within a validity argument are viewed as objective, static, and inactive declarations, it is because the argumentation strategies embedded therein have become so pervasively used and accepted that we no longer recognise them as contestable. The validity argument claims upon which HPE assessment decisions rest are merely assertions steeped in argumentation and so are up for debate.


[주장argument으로서의 타당성validity의 개념]은 수십 년 동안 존재해 왔고 발전해 왔다. 비록 많은 HPE 학자들이 메식스나 케인의 타당성 논증 개념화를 사용하여 활동하지만, HPE 외부의 학자들은 다른 접근법을 제시한다.

  • Bachman은 타당화 작업이 [평가 활용 논증]에 해당하며, 이것은 평가 [수행]을 [해석]에 연결하는 [평가 타당성 논증]과 [해석]과 [결정]을 연결하는 [평가 활용화 논증]로 구성된다고 한다.
  • Kane은 유사하게 평가 점수의 사용에 내재된 추론과 가정을 명시하는 [해석/사용 논증]를 제안한다.
  • Mislevy는 평가를 뒷받침하는 주장들이 평가 시스템의 설계와 구현에 통합되는 검증에 대한 [증거 중심 설계 접근법]을 설명한다.

The concept of validity as argument has existed and evolved for decades.34-36 Although many HPE scholars operate using Messick's or Kane's conceptualization of validity argumentation,1, 3, 26, 37-43 scholars outside HPE present other approaches.44 

  • Bachman advocates validation work should entail an assessment use argument, which is comprised of
    • an assessment validity argument linking assessment performance to an interpretation and
    • an assessment utilisation argument linking interpretations to a decision.4546 
  • Kane similarly proposes an interpretation/use argument that explicitly states the inferences and assumptions ingrained within use of assessment scores.647 
  • Mislevy describes an evidence-centreed design approach to validation in which the arguments underpinning assessment are integrated into the design and implementation of assessment systems.4849 

이 세 명의 비 HPE 학자들은 모두 [스티븐 툴민]이 제시한 주장 구조를 사용하지만, 검증에 사용되는 기초적인 주장 지향만을 표면적으로 다룬다. 불행하게도, 툴민의 구조는 아직 HPE 검증의 담론에 들어가지 않았다. 이러한 누락은 HPE에 문제를 발생시킨다. HPE의 타당성 주장에는 우리가 종종 인식하지도, 비판하지도 못하는 가정과 사고 방식이 포함되어 있다. 이 실패는

  • [타당성 주장이 객관적인 진리]라고 가정하면서,
  • [(특정 이데올로기에 생명을 불어넣는) 추론을 위한 구조가 아니]라고 가정할 위험이 있다.

다시 말해, [우리의 평가 결정]과 그 [타당성에 대한 개념화에 entrench된 주장]은 우리가 각 결정이 언제 그리고 어떻게 타당한지를 의도적으로 고려할 수 있도록 명시되어야 한다. [논증 이론argumentation theory]은 우리가 그 명확성을 성취하는 것을 도울 수 있다.

These three non-HPE scholars all employ argument structures put forth by Stephen Toulmin,27, 29, 45, 48-51 but they only superficially address the underlying argumentation orientation utilised for validation. Unfortunately, Toulmin's structures—much less argument orientations—have yet to enter the discourse of HPE validation. This omission generates problems for HPE. Embedded within HPE's validity arguments are assumptions and ways of thinking that we often fail to recognise and critique. This failure risks assuming that

  • the validity arguments are objective truths and
  • not structures for reasoning that bring certain ideologies to life.

In other words, the arguments entrenched in our assessment decisions and in our conceptualizations of their validity must be made explicit so that we can deliberately consider when and how each decision is valid. Argumentation theory can help us achieve that clarity.

1.2 논증 이론
1.2 Argumentation theory

논증 이론은 논리학, 언어학, 철학, 심리학, 법학과 같은 여러 학문에서 끌어내어 논증적 담론의 생산, 분석, 평가를 다루는 학문이다. 다양한 학문 분야의 학자들이 논쟁 이론의 태피스트리에 독특한 실타래를 추가하는 등 몇 가지 지향점이 존재한다. Van Eemeren 등은 논증 이론의 핵심인 몇 가지 측면을 포함하는 [논증의 정의]를 제공한다.

Argumentation theory is not a single unified theory; instead, it is a field of study that draws from multiple disciplines (e.g. Logic, Speech, Linguistics, Philosophy, Psychology, and Law) to grapple with the production, analysis, and evaluation of argumentative discourse (spoken or written).52, 53 Several orientations exist, with scholars from a wide range of academic disciplines adding unique threads to the tapestry of argumentation theory. Van Eemeren et al. provide a definition of argumentation that includes several aspects that are key to argumentation theories:

논증(論 is)은 이성적인 판사 앞에
논점을 정당화하거나 반박하기 위한 명제들의 집합을 제시함으로써,
청취자나 독자에게 논쟁적인 관점의 수용성을 증가(또는 감소)시키는 것을 목표로 하는
추론의 언어적이고 사회적인 활동이다. 
Argumentation is a verbal and social activity of reason
aimed at increasing (or decreasing) the acceptability of a controversial standpoint for the listener or reader,
by putting forward a constellation of propositions intended to justify or refute the standpoint before a rational judge.52

이러한 개념화는 [논증]이 [사람들(사회) 간에 교환되는 언어(언어)에 의존하는 노력(활동)]임을 강조한다. 이 의사소통은 목표 지향적이다; 목표청중(단일 청취자, 독자 또는 청취자 또는 독자의 그룹)이 특정한 관점이나 해석(관점)에 동의하거나 동의하지 않도록 설득하는 것이다. 중요한 것은, 논쟁은 옹호되는 관점이 청중들에 의해 논쟁의 여지가 있는 사회적 상황에서 존재한다. 따라서, 주장(명제 별자리)청중(합리적 판단자)이 주장자와 일치하도록 설득할 관점에 대한 특정한 해석을 제시하기 위해 만들어진다. 

> This conceptualization highlights that argumentation is an endeavour (activity) that relies on language (verbal) being exchanged between people (social).
> This communication is goal oriented (aimed); the goal is to convince an audience (single listener or reader or groups of listeners or readers) to agree (increase acceptability) or disagree (decrease acceptability) with a particular viewpoint or interpretation (standpoint).
> Importantly, argumentation exists in social situations where the viewpoint being espoused is disputable (controversial) by an audience.
> Therefore, arguments (constellations of propositions) are created to present a particular interpretation of the viewpoint (justify or refute the standpoint) that will convince the audience (rational judge) to align themselves with the arguer.

프로세스와 표준에 대한 공유된 개념이 없다면 논쟁은 헛된 것이다.
Without a shared conception of processes and standards, argumentation is futile.52

많은 다른 논쟁 이론들이 어떻게 주장이 실현될 수 있는지를 제안한다. 어떤 이들은 [연역적 추론]의 사용을 앞에 두는 반면, 다른 이들은 [대화의 힘]을 강조한다. 어떤 것은 [규범적 기준]을 강조하는 반면, 어떤 것은 [수사적 목적]을 강조한다. 게다가, 논쟁 학자들은 이 이론들을 토론하고 수정하며, 다른 해석을 제공한다. 분명히, 이 전체 학술문헌의 검토는 타당성에 대한 HPE의 사고를 발전시키기 위한 실질적인 통찰력을 쉽게 제공하지 못할 것이다. 그러나 HPE의 평가자와 평가 연구자가 활용할 수 있는 중요한 고려사항과 구체적인 응용을 제공할 수 있는 논쟁 이론의 보다 표적화된 검토. 따라서 HPE의 유효성 주장에 유용하게 적용될 수 있는 이론과 학술적 해석을 선택했다.
Many different theories of argumentation propose how arguments could be realised. Some foreground the use of deductive reasoning,54 whereas others accentuate the power of dialogue.55 Some stress normative standards,56 whereas others emphasise rhetorical aims.57 Furthermore, argumentation scholars debate and revise each of these theories, offering different interpretations. Clearly, a review of this entire body of scholarship would not readily offer practical insights for advancing HPE's thinking about validity. However, a more targeted review of argumentation theories that can offer important considerations and concrete applications that could be harnessed by HPE's assessors and assessment researchers. Therefore, we selected theories and scholarly interpretations thereof that could be usefully applied to validity argumentation in HPE.

2 방법
2 METHODS

우리의 조사는 다음과 같이 물었다.

  • 논증 이론은 어떻게 우리가 새롭고 생성적인 방법으로 HPE 평가 타당성의 본질을 개념화하는 데 도움을 줄 수 있는가? 

이 질문에 답하기 위해 우리는 [비판적 검토]를 실시했다. [비판적 검토]는 [체계적 검토]처럼 일반화될 수 있는 진실을 생산하기 위한 것이 아니다.

  • 오히려 [비판적 검토]는 [구성주의적 존재론과 인식론]에 뿌리를 두고 있으며, "문제를 해석하는 현재의 방법을 다시 구상하기 위해 다른 영역의 문학과 이론을 끌어낸다."
  • 연구팀은 [특정 주제에 관련된 모든 지식을 종합하는 것]을 목표로 하는 대신, 문헌에 대한 [비판적 검토와 주관적 해석을 수행]한다. 따라서 연구팀은 "발견된 문헌을 평가하고 해석하기 위해 그들의 관점을 사용하는 [연구 도구의 역할]을 한다." 

Our investigation asked:

  • How can argumentation theory help us conceptualise the nature of HPE assessment validity in new and generative ways?

To answer this question, we conducted a critical review. Critical reviews are not intended to produce generalizable truths58 like systematic reviews.

  • Rather, critical reviews are rooted in a constructivist ontology and epistemology59 and “draw on literature and theory from different domains to re-envision current ways of interpreting the problem.”60 
  • Instead of aiming to synthesise all knowledge relevant to a particular topic, the research team conducts a critical review and subjective interpretation of a body of literature. The research team thus “acts as a research instrument, using their perspective to appraise and interpret the literature uncovered.”60 

이 접근 방식은 평가 타당성에 대한 가정과 선입견을 조사함으로써 HPE를 발전시킬 수 있는 논쟁 이론의 선택을 설명하려는 우리의 목표와 일치한다. 우리는 이론 뭉치를 생성하고 해당 코퍼스를 분석하기 위해 Kahkee 등이 자세히 설명한 5단계 비판 검토 프로세스를 따랐다. 우리는 아래의 반복적 순환에 관여했다. 

  • 집중(즉, 연구 목표의 구성/설정) 
  • 탐색(즉, 논증 이론에서 보초 관점에 대한 표적 탐색) 
  • 평가(즉, 목적과의 관련성을 위한 원고 평가) 
  • 샘플링(즉, 연구에 대한 통찰력을 제공할 수 있는 원고 결정) 
  • 분석(즉, 각 이론의 타당성 주장에 대한 적용 가능성 평가)을 수행합니다.

This approach aligns with our goal of describing a selection of argumentation theories that can advance HPE by examining the assumptions and preconceptions around assessment validity. We followed the five-step critical review process detailed by Kahlke et al to generate a corpus of theories and to analyse that corpus.60 We engaged in iterative cycles of

  • focusing (i.e. constructing/revising the research aims);
  • searching (i.e. targeted exploration for sentinel perspectives in argumentation theory);
  • appraising (i.e. assessing manuscripts for relevance to our aims);
  • sampling (i.e. determining manuscripts potential to offer insights into our research); and
  • analysing (i.e. assessing each theory's applicability to validity argumentation).

우리의 검색 전략(그림 1)은 논쟁 이론 분야의 선두주자로 간주되는 저자에 의해 쓰여진 인용이 높은 동료 검토 저널 기사를 식별함으로써 논쟁 이론 분야의 주요 저작물을 찾는 것으로 시작되었다. 논쟁 이론이 인문학에 자리 잡고 있다는 점을 고려할 때, 우리는 동료 검토 저널 기사가 유익하겠지만, (이 영역에서 매우 가치 있는 보급 형태인) 책과 교과서로 범위를 넓혀야 할 것이라는 것을 인식했다. 우리는 이러한 원고를 검토하고 그 분야의 역사에서 몇 가지 지점에서 논의의 이론적 및 실제적 측면을 다루는 논쟁 이론의 주요 사고 유형을 매핑했다. 
Our search strategy (Figure 1) began by locating seminal works in the field of argumentation theory by identifying highly cited peer-reviewed journal articles that were written by authors considered leaders in the field of argumentation theory. Given that argumentation theory sits in the humanities, we recognised that, although peer-reviewed journal articles would be informative, we would also have to broaden our scope to books and textbooks since these are highly valued forms of dissemination in this domain. We reviewed these manuscripts and mapped the leading strains of thought in argumentation theory that addressed theoretical and/or practical aspects of argumentation from several points in the field's history.

우리는 논증과 HPE 평가 타당성에 대한 우리의 전문 지식을 사용하여 "연구 질문에 대한 출처의 관련성 및 포함된 정보에 의해 추가된 가치에 대한 그들의 감각에 기초하여 포함을 위한 논문을 평가한다". 주요 저작물에 대한 검토와 병행하여 ERIC, Scopus, Web of Science, PubMed 및 Medline 데이터베이스가 인문학적 및 교육 관련 출판물을 다루는 광범위한 문헌을 인덱싱하기 때문에 이를 검색하기 위해 학술 사서들과 함께 ERIC, Scopus, Web of Science, PubMed 및 Medline 데이터베이스를 검색했다. 우리는 원래 말뭉치에 포함되지 않은 인용도가 높은 책과 동료 검토 저널 기사를 검색했다. 우리는 추가적인 핵심 참조를 식별하기 위해 소급적으로 눈덩이 샘플링을 사용했다(즉, 주요 작업에 나열된 참조 조사).

We used our expertise in argumentation and HPE assessment validity to “appraise papers for inclusion based on their sense of a source's relevance to the research question and the value added by the information it contains.”60 In parallel to our review of seminal works, we worked with an academic librarian to search ERIC, Scopus, Web of Science, PubMed, and Medline databases because they index a wide range of literatures—i.e. both journal articles and books—addressing humanities- and education-related publications. We searched for highly cited books and peer-reviewed journal articles that were not included in our original corpus. We used snowball sampling retrospectively (i.e. investigating references listed in seminal works) to identify additional key references.

BK와 LV는 corpus를 검토하여 [논쟁의 분야]을 형성한 저명한 이론과 학자들의 목록을 독립적으로 작성했다. 이 목록들은 포괄적이게 의도된 것이 아니라 논쟁에서 [가장 영향력 있는 목소리와 관점]을 포착하기 위해서였다. 그런 다음 우리는 합의된 토론을 통해 이것들을 [하나의 목록]으로 비교하고 해결했다. 우리는 HPE에 가장 적합한 주장 이론을 결정하기 위해 합의 목록과 정렬된 corpus의 출처를 검토했다. 구체적으로, 우리는 어떤 이론이 실제 검증 작업과 더 광범위한 학술적 노력의 맥락에서 평가 검증에 관여하는 HPE 학자들에게 유익한 통찰력을 제공하는지를 고려했다. 표 1은 우리가 검토했던 논증 이론 내에서 두드러진 방향을 제시하면서 이 연구의 요약을 제공한다.

BK and LV reviewed the corpus to independently create lists of the pre-eminent theories and scholars that have shaped the field of argumentation. These lists were not intended to be comprehensive, but rather to capture the most influential voices and viewpoints within argumentation. We then compared and resolved these into a single list through consensus discussions. We reviewed sources from the corpus that aligned with the consensus list to determine which argumentation theories were most applicable to HPE. Specifically, we considered which theories would provide beneficial insights to HPE scholars engaged in assessment validation, both in the context of practical validation work and broader scholarly endeavours. Table 1 provides a summary of this work, presenting prominent orientations within argumentation theory which we considered, though some we did not fully discuss in our findings.

2.1 반사율
2.1 Reflexivity

비판적 검토 연구팀은 "발견된 문헌을 평가하고 해석하기 위해 그들의 관점을 이용하는 [연구 도구의 역할]을 한다." 
이 목표를 염두에 두고, 우리의 고유한 관점, 전문 분야 및 개인적 배경이 합성 활동에 정보를 제공했다. 우리 팀은 다양한 관심과 경험을 가진 의학교육 학자로 구성되었다. 두 명의 팀 구성원(BK 및 DS)은 HPE 연구에 적극적으로 참여하는 임상의 교육자입니다. 이 연구의 1차 연구자(BK)는 HPE 박사 과정의 일부로 논쟁 이론 문헌에 몰두했다. 그는 또한 역량 기반 의료 교육, 학습자 평가 및 타당성에 대한 전문 지식을 가지고 있다. 다른 임상 교육자(DS)는 CBME 및 평가 타당성에 대한 전문 지식을 보유하고 있습니다. ED는 학습자 평가, 유효성 및 CBME에 대한 전문 지식을 갖춘 PhD 훈련을 받은 연구원입니다. 본 논문의 선임 연구자(LV)는 논증 이론, 수사학, 전문적 커뮤니케이션에 중점을 둔 박사 훈련을 받은 연구원입니다. 그녀의 통찰력은 팀이 논쟁에서 중요한 학자와 이론을 식별하고 이러한 학자와 이론들이 HPE에서 주장된 타당성에 대한 다른 접근법과 어떻게 일치하는지 되돌아보는 데 도움을 주었다. 팀 연구 토론은 종종 HPE의 타당성에 대한 우려에 어떤 주장 이론이 유용하게 적용될 수 있는지에 대한 토론을 포함한다.

The critical review research team “acts as a research instrument, using their perspectives to appraise and interpret the literature uncovered.”60 With this goal in mind, our unique perspectives, areas of expertise, and personal backgrounds informed the synthesis activity. Our team consisted of medical education scholars with diverse interests and experiences. Two team members (BK and DS) are clinician educators who actively engage in HPE research. The study's primary researcher (BK) immersed himself in the argumentation theory literature as part of his PhD in HPE; he also has expertise in competency-based medical education (CBME), learner assessment, and validity. The other clinician educator (DS) has expertise in CBME and assessment validity. ED is a PhD-trained researcher with expertise in learner assessment, validity, and CBME. The senior researcher on this paper (LV) is a PhD-trained researcher whose graduate work focused on argumentation theory, rhetoric, and professional communication. Her insights helped the team to identify significant scholars and theories in argumentation and to reflect on how these scholars and theories aligned with other approaches to validity espoused in HPE. Team research discussions often involved debates about which argumentation theories could be usefully applied to concerns about validity in HPE.

[방법론적 성찰성] 또한 우리의 연구를 이끌었다. [여러 저자의 이론]과 논쟁 이론의 학파 내 및 학파 간에 보유된 [일반적인 가정]을 검토함으로써, 우리는 HPE 평가 타당성을 위해 가장 생성 가능성이 있다고 생각되는 이론을 선택했다. 우리는 논증 이론의 광범위한 표현을 포함하려고 노력했지만, 주로 우리의 선택에 대한 안내 원칙은 다음과 같았다.

  • 이 이론은 우리가 HPE 맥락에서 타당성 주장을 이해하는 데 실질적으로 도움을 줄 수 있는가?

Methodological reflexivity also guided our research. By reviewing the theories from several authors and the common assumptions held within and across schools of argumentation theory, we selected theories we thought held the most generative possibilities for HPE assessment validity. We sought to include a broad representation of argumentation theories, but the guiding principle primarily informing our selections was:

  • Can this theory substantially help us understand validity arguments in the HPE context?

 

3 결과
3 RESULTS

표 1에서, 우리는 HPE의 타당성 주장에 대한 각 이론의 적용 가능성에 대한 우리의 평가와 함께 [다섯 가지 중요한 주장 이론]의 주요 측면을 개략적으로 설명한다. 반복적인 분석 주기를 통해, 우리는 [새로운 수사학]과 [비공식 논리]의 두 가지 방향이 HPE 평가 타당성에 대한 특히 유용한 통찰력을 제공한다는 것을 결정했다. 이것은 다른 주장 지향이 HPE에 대한 가치가 없다고 말하는 것이 아니다. 대신, 우리의 전문 지식을 기반으로, 우리는 [새로운 수사학]과 [비공식 논리]가 우리 분야의 평가 타당성에 특히 적용될 수 있다고 제안한다. 우리는 먼저 이러한 방향을 검토한 다음 HPE의 타당성 주장과 관련이 있다고 믿는 주장의 세 가지 측면, 즉 청중, 주장 구조 및 평가 표준에 초점을 맞춘다.
In Table 1, we outline key aspects of five prominent theories of argumentation, along with our assessments of each theory's applicability to HPE's validity arguments. Through our iterative cycles of analysis, we determined that two orientations—new rhetoric and informal logic—offered particularly useful insights into HPE assessment validity. This is not to say that other argumentation orientations are without value for HPE; instead, based on our expertise, we suggest that new rhetoric and informal logic are especially applicable to assessment validity in our field. We first review these orientations, then focus on three aspects of argumentation that we believe are relevant to validity argumentation in HPE: audience, argument structure, and evaluation standards.

3.1 새로운 수사학
3.1 New rhetoric


20세기 중반에 두 명의 철학자인 하임 페렐만과 루시 올브레히츠-티테카는 경험적 증명보다는 가치 판단에 더 의존하는 논증 이론을 발전시켰다. [새로운 수사학]은 아리스토텔레스의 수사학과의 유사성, 특히 아리스토텔레스가 논쟁에서 [청중]과 [설득]에 중점을 둔 핵심적 중요성 때문에 그렇게 명명되었다. [새로운 수사학]에서 논쟁의 목표는 절대적 진리의 증명보다는, 논쟁자에 의해 제기되는 [주장에 대한 청중의 수용을 얻는 것]이다. 논쟁의 타당성은 청중들의 설득에 달려있다. 논쟁자들은 [청중의 가치와 신념]에 대해 설명하고 적응해야 하며, 따라서 타당성을 [청중을 설득하는 능력]과 연결시켜야 한다. 청중은 논쟁자의 주장에 대해 [부분적으로 설득]될 수 있기 때문에, 타당성은 [정도의 문제]로 존재한다. 이러한 의미에서, 새로운 수사학은 주장의 타당성을 결정하기 위한 외부 규범적 틀을 제공하지 않는다. 대신, 그것은 수용 가능하고 그럴듯한 것을 결정하기 위해 청중에게 그들의 가치와 규범을 사용하도록 한다. 설득이 합리적인 주장 분석의 필요성을 없애지는 않고, 다만 청중의 가치관 맥락에 합리성을 둔다. 중요한 것은, 설득은 속이거나 조작하는 방법이 아니라, 특정 [청중의 원칙과 예상 기준]을 [평가 기준]으로 고려하고 평가하는 것을 의미한다.

In the mid-20th century two philosophers, Chaim Perelman and Lucie Olbrechts-Tyteca, developed a theory of argumentation that relied more on value judgements than empirical proof.67-70 New rhetoric was so named because of similarities to Aristotle's rhetoric, particularly the central importance Aristotle placed on audience and persuasion in argumentation.61, 71 In new rhetoric, the goal of argumentation is not the demonstration of absolute truth but rather to gain an audience's acceptance of a claim being put forth by an arguer.53, 72 Argument validity is dependent upon audience persuasion. Arguers must account for and adapt to an audience's values and beliefs, thereby linking validity to the ability to convince an audience.57 Validity exists as a matter of degree since an audience might be partially persuaded towards an arguer's claim. In this sense, new rhetoric does not provide an external normative framework for determining argument validity; instead, it relies on an audience to use their own values and norms to determine what is acceptable and plausible. Persuasion does not remove the need for rational argument analysis; it places rationality in the context of an audience's values. Importantly, persuasion is not meant as a way to deceive or manipulate,73 but rather to consider and apprize a particular audience's principles and anticipated standards as evaluative criteria.

[청중의 가치와 기준]이 타당성의 중심이므로, 논쟁자들은 그들이 [의도한 청중]을 명시해야 한다. Perelman과 Olbrects-Tyteca는 [특정 청중]과 [보편적인 청중] 사이에서 논쟁하는 것을 구별한다.

  • [특정 청중]은 논쟁자가 그들의 주장을 다룰 수 있는 실제 사람 또는 그룹(또는 그 대표자)으로 구성된다. 비록 특정 청중이 더 큰 청중집단의 부분집합이나 표본일 수 있지만, 논쟁은 여전히 [구체적인 사람 또는 집단의 가치]를 기준으로 하여 발생한다.
  • 대조적으로, [보편적 청중]은 개념적이며, 논쟁자에 의해 유능하고 합리적인 사람들의 가치와 이상을 가진 집단으로 생각됩니다. 따라서, 보편적인 청중을 가지고, 논쟁자는 [합리적 청중]의 개념에 기초하여 타당성의 가치와 기준을 결정하는 역할을 한다.

Given the centrality of an audience's values and standards to validity, arguers must make explicit their intended audience. Perelman and Olbrects-Tyteca distinguish between arguing to a particular audience and a universal audience.

  • A particular audience consists of a real-world person or group (or representative thereof) to whom an arguer can address their argument.74 Although the particular audience may only be a subset or sample of a larger group, the argument still occurs using a concrete person's or group's values as the standard.
  • In contrast, the universal audience is conceptual, conceived by the arguer as a group holding the values and ideals of competent and reasonable people. Thus, with a universal audience, the arguer plays a role in determining the values and standards of validity based on their notion of a reasonable audience.

새로운 수사학에서 [특정 청중] 및 [보편적 청중]의 구체적인 역할에 대한 논쟁이 있다. 그러나, 특정 청중과 보편적 청중 둘 다, 논쟁자의 목표는 청중들의 순응adherence을 확보하는 것이다. 새로운 수사학은 주장자들이 그들의 [청중을 명시적으로 식별]하도록 강요하며, 주장자들이 [자신의 청중에 대한 지식과 이해]를 소유하도록 동기를 부여한다.

There is debate over the specific roles of particular and universal audiences in new rhetoric74-77; however, with both particular and universal audience, the arguer's goal is securing audience adherence. New rhetoric compels arguers to explicitly identify their audience, and incentivizes arguers to possess knowledge and understanding of their audience.

HPE의 평가 관행을 위한 새로운 수사학의 실질적인 함의는 프로그램 리더가 [관여하고자 하는 각 그룹의 요구]를 충족시키기 위해 타당성 주장을 조정해야 한다는 것을 포함한다.

  • 인가 및 인증 기관을 다룰 때, 논쟁은 훈련의 결과와 결과에 초점을 맞춘 타당성 증거를 강조할 수 있다.
  • 학습자를 다룰 때, 논쟁은 평가 관행의 공정성과 형평성을 강조할 수 있다.

Practical implications of new rhetotic for assessment practices in HPE include the need for programme leaders to tailor their validity arguments to meet the needs of each group they are engaging.

  • When addressing accrediting and certifying bodies, arguments might emphasise validity evidence focused on outcomes and consequences of training.
  • When addressing learners, arguments might emphasise equity and fairness in assessment practices.

3.2 비공식 논리
3.2 Informal logic

[비공식 논리]는 [전제와 결론 사이의 논리적 일관성]을 평가하면서 실제, 사회적 환경, 공개 담론에서 발생하는 주장을 (구조를 통해) 식별하고 (규범적 표준을 통해) 평가하기 위한 절차와 표준을 제공한다. [비공식 논리]는 주장의 타당성을 결정하는 다양한 접근법을 포괄하는 광범위한 포괄적 용어이다. 이 이론이 등장하기 전에 [형식 논리formal logic]는 현실 세계의 논쟁에 무균적이고 탈맥락화된 방식으로 적용되었다. 많은 비공식 논리학자들은 탈맥락적 접근법을 거부했는데, 이는 실제 논증을 평가하는 것을 불가능하게 만드는 잠재적인 왜곡으로 가득 차 있었기 때문이다. 비공식 논리는 문맥적 요인이 제거되지 않고, 주장 구조의 식별을 통해 [실제 논쟁의 지저분하고 암묵적이며 불완전한 성격]을 설명하기 위해 개발되었다.

Informal logic provides procedures and standards for identifying (via structures) and evaluating (via normative standards) arguments that occur in real-world, social environments and public discourse while still valuing logical coherence between premises and conclusions.56, 78 Informal logic is a broad umbrella term covering differing approaches to determining argument validity.79, 80 Before the advent of this theory, formal logic was applied to real-world arguments in a sterile, decontextualized way. Many informal logic scholars rejected this context-free approach because it was fraught with potential distortions that rendered evaluating real-world argumentation impossible. Informal logic was developed to account for the messy, implicit, incomplete nature of real-world argumentation through identification of argument structures without removal from contextual factors.

일단 논쟁의 구조가 맥락적으로 이해되면, 비공식 논리는 논쟁에서 추론의 강도를 결정하기 위한 여러 기준을 제공한다. 한 가지 접근 방식은 논점을 평가하기 위한 [관련성, 수용성 및 충분성]의 기준에 의존한다.

  • 관련성은 전제(즉, 클레임 또는 제안), 이러한 전제로부터 추론된 결론 및 전체적인 주장 사이의 적절한 관계를 요구한다.
  • 수용가능성은 논쟁자, 청중, 비판적 공동체에 의해 결정되는 전제의 진실성 또는 타당성과 관련이 있다.
  • 충분성은 주장을 뒷받침하는 증거가 유형, 수량 및 사용에 있어 적절해야 한다.

비공식 논리에서 주장의 강도를 결정하기 위한 다른 접근법에는 오류(즉, 추론의 오류)를 배제하고, 반례를 사용하고, 주장 체계를 공식화하는 것이 포함된다. 어떤 접근법도 주장의 타당성을 판단하는 방법으로 유일하게 정확하지는 않다. 대신에, [비공식 논리]는 [주장의 힘과 설득력]을 주장의 목표로 앞세운다.

Once an argument's structure is contextually understood, informal logic offers multiple standards for determining the strength of inferences in the argument.56 One approach relies on the criteria of relevance, acceptability, and sufficiency to evaluate arguments.81, 82 

  • Relevance demands adequate relationship between premises (i.e. claims or propositions), conclusions inferred from these premises, and the overall argument.
  • Acceptability relates to the truth or plausibility of premises as determined by the arguer, audience, and critical community.
  • Sufficiency requires that evidence supporting an argument be appropriate in type, quantity, and use.

Other approaches for determining the strength of an argument in informal logic include excluding fallacies83, 84 (i.e. errors of reasoning), using counterexamples, and formulating argumentation schemes.85 No one approach is singularly correct for determining an argument's validity; instead, informal logic foregrounds argument strength and cogency as the goal of argumentation.

철학자 스티븐 툴민은 1958년 저서 《논증의 사용》으로 비공식 논리에 깊은 영향을 끼쳤다. 툴민의 모형에서, 인수는 더 큰 응집 단위의 고유한 요소 부분으로 분해된다.

  • 클레임(claim)은 논쟁의 출발점이 되는 논쟁자에 의해 취해지는 특정한 문제에 대한 관점 또는 의견이다.
  • [클레임]은 증거에 의해 뒷받침되어야하고, 툴민은 이를 데이터data라 불렀다.
  • 그러나, 논쟁자는 [왜 또는 어떻게 특정 데이터가 명시된 주장을 뒷받침하는지]를 상세히 설명해야 한다. 이러한 상세한 설명을 영장warrant이라고 하는데, 이는 클레임claim를 입증하기 위해 특정 데이터를 사용할 수 있는 정당성을 제공한다.

다시 말해, [영장]은 [청구]와 그 뒷받침하는 [데이터] 사이의 가교 역할을 한다. [데이터-보증-청구 유닛data-warrant-claim unit]는 툴민의 주장 구조의 근간을 이루지만 다음과 같은 다른 요소들이 있다.

  • 지원backings (영장 발부의 근거), 
  • 한정자qualifiers (청구의 보편성에 대한 제한 또는 제한) 
  • 반론rebuttals (반론에 대한 선제적 또는 사후 대응적 반응).

Philosopher Stephen Toulmin profoundly influenced informal logic with his 1958 book The Uses of Argument86 in which he provided a framework for organising argument structures to facilitate analysis and evaluation.87, 88 In Toulmin's model, arguments are deconstructed into unique component parts of a larger cohesive unit.

  • claim is a standpoint or opinion on a particular matter taken by an arguer which serves as the point of departure for argumentation.
  • Claims are supported by evidence which Toulmin labels data.
  • However, an arguer must elaborate on how or why particular data support the stated claim. This elaboration is known as a warrant, which provides justification for use of particular data to substantiate a claim. In other words, a warrant provides a bridge between a claim and its supporting data.52 

The data-warrant-claim unit forms the backbone of Toulmin's argumentation structure, though there are other components such as 

  • backings (evidence to support a warrant), 
  • qualifiers (limitations or restrictions on the universality of a claim), and 
  • rebuttals (pre-emptive or reactive responses to counterarguments).

Toulmin의 모델에서, 타당성validity은 영장warrant이 데이터data에서 청구claim로의 도약을 적절하게 정당화한다는 것을 증명하는 데 달려 있다. 그는 유사한 주장 구조가 관련 학문이나 분야field에 관계없이 사용될 수 있다고 믿었다. 따라서, 인수 구조와 인수를 분석할 수 있는 일반적인 절차는 [분야-독립적field independent]이다. 그러나 툴민은 타당성의 많은 측면이 [분야 의존적field-dependent]이라고 믿었는데, 이는 논증이 관련 분야의 규범, 가치, 기준을 사용하여 평가되어야 한다는 것을 의미한다. 이를 위해 툴민은 타당성을 설명할 때 방어 가능, 수용 가능, 견실함 등의 용어를 사용한다. 그러한 [결정을 내리는 청중]은 논쟁에 참여하는 특정 개인이나 집단 또는 논쟁에 관여하지 않지만 그럼에도 불구하고 [판단을 내릴 수 있는 구경꾼onlooker]일 수 있다.
In Toulmin's model, validity hinges on demonstrating that the warrant adequately justifies the leap from data to claim. He believed that similar argument structures could be used regardless of the relevant discipline, or field.86 Thus, argument structure and the general procedure by which arguments could be analysed are field independent. However, Toulmin believed that many aspects of validity are field dependent, meaning that arguments should be evaluated using the norms, values, and criteria of the relevant field. To that end, Toulmin uses terms such as defensible, acceptable, and sound when describing validity. The audience who levies such determinations can be a specific person or group participating in the argument or an onlooker who is not involved in the argument but can make a judgement nonetheless.

HPE의 평가 관행에 대한 [비공식 논리]의 실제적 함의는 교육 프로그램 리더가 논증의 [주장, 데이터, 영장 및 후원]을 게시하는 데 명확하게 signposting함으로써, 이해 당사자들이 시간 가변적인 승진 결정의 타당성을 결정하기 위해 [더 정밀한 조사가 필요한 추론을 명확하게 식별할 수 있도록 하는 것]을 포함한다. Claim이 수용되면, 이것이 진급 결정을 알리는 평가 프로그램과 관련된 다른 주장에 대한 [데이터data 또는 보증서warrant]가 됩니다. 따라서, 시간 변수 결정을 지원하기 위해 명확하게 레이블링된 논쟁의 웹이 형성될 수 있다. 이 웹은 현장 의존적일 것이며, 다른 분야에서는 반드시 그렇지는 않지만 HPE와 관련된 허용 가능성과 건전성 기준을 사용하여 평가될 것이다.
Practical implications of informal logic for assessment practices in HPE include training programme leaders clearly signposting the claims, data, warrants, and backings of their argument, allowing stakeholders to more clearly identify the inferences needing scrutiny to determine the validity of time-variable promotion decisions. Accepted claims then become data or warrants for other arguments related to the programme of assessment informing promotion decisions. Thus, a clearly labelled web of argumentation could be formed to support time-variable decisions. This web would be field dependent, meaning that it would be evaluated using acceptability and soundness criteria that are relevant in HPE, though not necessarily in other disciplines.

4 고찰
4 DISCUSSION

우리는 [비공식 논리]와 [새로운 수사학]이 HPE에서 타당성 주장에 대한 우리의 이해를 심화시킬 수 있는 가능성을 가진 주장 이론이라고 주장한다. 두 접근법 모두 [논쟁에서 맥락의 중요성]을 인정하고, [맥락화되고 실용화된 줌보의 타당성 개념화]와 일치한다.89, 90 우리는 HPE의 타당성 관행이 어떤 특정한 방향에 결합되어야 한다고 주장하는 것이 아니다. 대신, 우리는 우리의 분야가 유용하고 상호적인 관계로부터 이익을 얻을 수 있다고 제안한다. HPE 검증 관행과 확립된 논증 이론 사이에서.  예를 들어, Cook과 Hatala는 Kane의 프레임워크를 사용하여 HPE에서 검증 작업을 수행할 수 있는 우수한 실무 지침을 제공한다.

We contend that informal logic and new rhetoric are theories of argumentation that hold promise to deepen our understanding of validity argumentation in HPE. Both approaches acknowledge the importance of context in argumentation and align with Zumbo's conceptualization of validity as contextualised and pragmatic.89, 90 We are not asserting that HPE's validity practices should be wedded to any particular orientation; instead, we propose that our field could benefit from a useful, reciprocal relationship between HPE validation practices and established argumentation theories.91 For example, Cook and Hatala provide an excellent practical guide for undertaking validation work in HPE using Kane's framework.8 

우리는 다음에 대한 고려를 포함함으로써 이 가이드를 강화할 것을 제안한다. 

  • 주장이 누구에게 지시되어야 하는지(청중),
  • 추론(구조) 내에서 그리고 추론(구조) 사이에 주장을 구성하고 서명하는 방법, 또는
  • 주장이 평가되어야 하는 방법(표준)

We suggest enhancing this guide by including considerations of

  • to whom an argument should be directed (audience),
  • how to organise and signpost arguments within and between inferences (structure), and/or
  • how an argument should be evaluated (standards).

후자에 관해서는 쿡과 하탈라는 새로운 수사학과 비공식 논리를 동시에 인용하는 듯한 언어를 사용하며, 타당성 주장은 "다른 사람들을 설득"하려는 시도와 동시에 증거의 "관련성, 품질, 폭"이 중요하다는 점에 주목한다. 논쟁 분야에서 다양한 지향의 의미, 범위 및 효용성에 대해 토론하는 전통 내 및 다른 학자들과 함께 결정적인 경계가 거의 없는 것처럼, 우리는 HPE가 하나의 주장 지향argumentation orientation으로 스스로를 고립시키지 말아야 한다고 제안한다. HPE 연구원들은 다양한 전통에서 어떤 것을 기반으로 하여 타당성에 대한 우리 분야의 이해를 진전시키는 데 가장 도움이 될 수 있다. 따라서, 우리는 HPE가 [새로운 수사학]과 [비공식 논리]의 측면을 모두 사용하여, 타당성 논쟁에서 청중, 주장 구조 및 평가 표준에 대한 이해를 심화함으로써 이익을 얻을 것이라고 믿는다.
With regard to the latter, Cook and Hatala use language that seems to invoke both new rhetoric and informal logic, noting that validity arguments attempt to “persuade others” while also noting that the “relevance, quality, and breadth” of evidence is important. Just as there are few definitive boundaries in the field of argumentation, with scholars within and across traditions debating the meaning, scope, and utility of various orientations, we suggest that HPE should not silo itself into one argumentation orientation. HPE researchers can draw from various traditions based on which will be most helpful to move our field's understanding of validity forward. Therefore, we believe HPE would benefit from using aspects of both new rhetoric and informal logic to deepen our understanding of audience, argument structure, and evaluation standards in validity argumentation.

4.1 HPE 타당성 주장의 대상자를 정의하는 새로운 수사
4.1 New rhetoric to define HPE validity argumentation's audience

HPE의 새롭고 성장하는 담론은 "사회적 필수impretative로서의 타당성"이다. 그것은 사회와 학습자에 대한 책임감을 강조한다. 다시 말해, HPE 타당성 논쟁은 이해당사자의 요구에 집중된다. [비공식 논리]는 논쟁에서 청중의 중요성을 인식하지만, [새로운 수사법]과 같은 정도는 아니다. [새로운 수사학]은 청중 가치를 논쟁의 중심에 두며, 이해 관계자들과 더 넓은 HPE 커뮤니티 모두를 더 잘 참여시킴으로써 HPE가 완수하도록 요청되고 있는 사회적 요구를 더 잘 충족시키는 데 도움이 될 수 있다.
A new and growing discourse in HPE is that of “validity as social imperative,”4, 17 which emphasises accountability to society and learners. In other words, HPE validity arguments centre on the needs of our stakeholder audiences. Informal logic recognises the importance of audience in argumentation, but not to the same degree as new rhetoric.92 New rhetoric places audience values at the centre of argumentation, and may help us better satisfy the social imperative that HPE is being called to fulfil by better engaging both stakeholders and the broader HPE community.

앞에서 언급한 바와 같이, [새로운 수사학적 주장]은 특정 청중 또는 보편적인 청중을 향할 수 있다. HPE가 타당성 주장에 [새로운 수사학적 접근법]을 채택하기 위해서는, 우리는 청중을 더 잘 정의할 필요가 있을 것이다. 현재 많은 공식적인 HPE 타당성 주장은 저널 검토자, 편집자 및 독자가 청중 역할을 하는 동료 검토 출판물의 형태로 만들어진다.

  • [저널 독자]들은 출판계에서 가장 중요한 청중일 것이다. 그러나 독자들은 (편지나 해설을 쓰는 극소수의 경우를 제외하고) 대화식 청중의 형태를 나타낸다. 그것은 그들의 가치를 알 수 있거나 그들의 판단이 공유될 수 있는 정도를 제한한다. 
  • [검토자와 편집자]는 다른 HPE 학자를 대표하는 [특정 청중]의 역할을 할 수도 있고, 정보에 근거한 판단을 부과하기에 충분한 지식을 가진 유능하고 합리적인 사람들을 대표할 가능성이 가장 높기 때문에 [보편적 청중]의 대표자로 간주될 수도 있다. 사실, 그들은 두 가지 역할을 모두 수행할 수 있습니다

As mentioned previously, new rhetoric arguments can be directed towards a particular audience or a universal audience. For HPE to adopt a new rhetoric approach to validity argumentation, we would need to better define our audiences. Currently, many formal HPE validity arguments are made in the form of peer-reviewed publications, with journal reviewers, editors, and readers serving as audiences.

  • Journal readers may be the most important audience in the publication world. However readers represent a form of noninteractive audience93 (with the exception of the very few who write letters or commentaries), which limits the degree to which their values can be known or their judgements shared.
  • Reviewers and editors could serve as a particular audience representing other HPE scholars, or they could be considered a representation of a universal audience because they are most likely to represent competent and reasonable people with sufficient knowledge to levy informed judgements. They could, in fact, serve both roles.

그러나, 현재 검토자와 편집자는 반드시 타당성 주장이 허용 가능한지 또는 그럴듯한지에 대해 명시적인 판단을 내리지 않고 있다. 주어진 기관이나 프로그램의 맥락에서는 확실히 그렇지 않다. 그보다 , 리뷰어와 에디터는 원고가 HPE 커뮤니티에서 더 넓은 학문적 논의를 진전시키는지에 대한 결정을 내리고 있다. 검토자와 편집자는, 타당성 주장이 부적절하다는 것을 발견할 수 있지만, 원고가 아마도 혁신적인 생각, 방법론적 발전 또는 새로운 결론의 측면에서 저널의 독자들에게 약간의 이익을 제공하기 때문에 여전히 출판을 권고할 수 있다. 따라서, [새로운 수사학]은 (특정 청중으로서) 검토자와 편집자가 출판을 위해 제출된 타당성 주장의 타당성을 명시적으로 판단할 것을 강제할 것이다. 이는 아마도 출판 시 독자에게 판단을 signal하는 방법 중 하나이다.

However, currently reviewers and editors are not necessarily making explicit judgements on whether a validity argument is acceptable or plausible, and certainly not within the context of a given institution or programme. Rather, they are making a determination of whether a manuscript, in toto, moves the broader scholarly discussion forward in the HPE community. Reviewers and editors could, in fact, find a validity argument to be inadequate but still recommend publication because the manuscript provides some benefit to the journal's readers, perhaps in terms of innovative thinking, methodological developments, or novel conclusions. Thus, new rhetoric would compel reviewers and editors—were they to be identified as a particular audience—to explicitly judge the plausibility of validity arguments submitted for publication, perhaps with a way to signal their judgement to readers upon publication.

출판과 함께 발생하는 제한된 청중 상호작용은 HPE가 학술지를 넘어 타당성 논쟁을 확장하도록 의무화할 것이다. HPE는 [학습자, 프로그램 리더, 인가자, 인증자, 기관 및 지급인]을 포함한 여러 이해당사자를 보유하고 있다. 이러한 이해관계자 중 다수는 자신의 맥락과 관련된 타당성 증거가 발표된 기사를 결코 읽지 않을 수 있다. 평가 설계자는 동료 검토 출판물을 포함하지 않는 메커니즘을 통해 이러한 특정 청중에게 주장이 타당한지 확인할 필요가 있다. [비공식 논리]가 논증을 생산물로 제시하는 반면, [새로운 수사학]은 논증을 논증자가 청중과 함께 개발하는 활동 또는 서비스라고 설명한다. 이러한 [활동 기반 지향activity-based orientation]은 Cook과 Hatala의 [프로세스로서의 타당화validation]에 대한 설명과 일치하며, HPE에서 점차 관심을 받고 있는 [공동 생산]의 개념과 일치합니다. 공동 생산에서 소비자의 지식, 경험, 의견은 제품의 수동적 소비보다는 서비스의 창출에 영향을 미친다. 새로운 수사학의 렌즈를 채택하면 HPE가 서비스하고자 하는 사람들의 요구를 가장 잘 충족시키기 위해 일하는 타당성 주장자 및 청중(즉, 이해관계자)과 시간이 지남에 따라 논쟁의 공동생산이 이루어질 수 있다.
The limited audience interaction that occurs with publication would oblige HPE to expand validity argumentation beyond the pages of journals. HPE has several stakeholders in assessment decisions including learners, programme leaders, accreditors, certifiers, institutions, and payors. Many of these stakeholders may never read the articles in which validity evidence relevant to their context is published. Assessment designers would need to ensure that arguments are plausible to these particular audiences, likely via mechanisms that do not involve peer-reviewed publication. Whereas informal logic presents argument as a product, new rhetoric entreats argumentation to be an activity, or service, that an arguer develops with an audience.53 This activity-based orientation aligns with Cook and Hatala's description of validation as a process,8 and with the concept of co-production, which is gaining traction HPE.94, 95 In co-production, the consumers' knowledge, experience, and opinions influence the creation of a service rather than passive consumption of a product.96, 97 Adopting a lens of new rhetoric could the coproduction of arguments over time with validity arguers and audiences (i.e. stakeholders) working to best meet the needs of those who HPE aims to serve.

4.2 HPE 유효성 주장 구조를 명확히 하기 위한 비공식 논리
4.2 Informal logic to clarify HPE validity argumentation structure

HPE 학자들은 정기적으로 메시크와 케인의 프레임워크를 사용하여 타당성 증거를 구성하지만, [완전한 주장 구조]를 명시하지는 않는다. 실제로 케인은 툴민의 주장 구조(영장, 데이터, 지원, 반박)를 호출하지만, 이 모델은 언어 테스트와 같은 다른 분야에서 주로 나타났다. Toulmin의 모델은 HPE에 확인되지 않는 존재이며, 말뭉치 내에서 거의 표면화되지 않는다. 케인의 프레임워크는 논쟁자들이 [평가 데이터의 의도된 해석과 사용]을 명확히 진술할 것을 요구하는데, 이것은 주장 주장argument claim의 역할을 한다. 

HPE scholars regularly organise validity evidence using frameworks from Messick and Kane,2, 3 but do not make full argument structure explicit. Indeed, Kane invokes Toulmin's argumentation structure (warrants, data, backings, rebuttals),27, 29, 47, 50 though this model has mostly appeared in other fields such as language testing.98 Toulmin's model exists as a cryptid in HPE, rarely (if ever) surfacing within our corpus. Kane's framework requires arguers to clearly state an intended interpretation and use of assessment data,6, 29 which serves as the argument claim.

그러나, HPE 학자들은 케인의 추론 사슬을 단순히 사용하는 것이 아니라, 특히 상당한 정밀 조사가 필요한 고위험 의사결정의 경우 분석을 강화하기 위해 주장의 전체 구조를 명시적으로 만들 수 있다. 사실 케인의 추론의 사슬에는 몇 가지 주장arguments이 내재되어 있을 가능성이 높지만, 명시적이고 구조적인 보고가 없다면 간과될 수 있다. 프로그램적 평가에서 발견될 가능성이 있는 [복잡한 타당성 주장]은 어떻게 [확립된 주장]이 더 긴 일련의 논쟁에서 [후속 주장에 대한 데이터나 영장warrant이 되는지]를 보여주면서 계획될 수 있다.

However, rather than simply using Kane's chain of inferences, HPE scholars could make explicit the full structure of their arguments to augment analysis, particularly for high-stakes decisions that require significant scrutiny. In fact, there are likely to be several arguments embedded within Kane's chain of inferences,28 which may go overlooked without explicit and structured reporting. Complex validity arguments that are likely to be found in programmatic assessment could be mapped out, showing how an established claim becomes data or a warrant for a subsequent argument in a longer chain of argumentation.

타당화 과정이 얼마나 많은 구조를 가져야 하는지에 대한 타당성 학자들 사이에 논쟁이 있지만, 현재 HPE는 타당성 주장을 구성, 식별 또는 서명 게시하기 위한 명확하거나 합의된 접근법이 없다. 종종 "주장arguments"라고 불리는 것은 명확한 주장 구조는 없는 데이터의 집합이다. Toulmin의 모델은 이해관계자들에게 증거를 제시하고, 해석하고, 우선순위를 정하고, 논쟁하는 데 도움이 될 수 있다.

Though there is debate amongst validity scholars as to how much structure the validation process should have,44 currently HPE has no clear or agreed-upon approach for organising, identifying, or signposting validity arguments. Often what are labelled “arguments” are collections of data that lack an explicit argument structure. Toulmin's model could help to present, interpret, prioritise, and argue the evidence to stakeholders.

 

4.3 타당성 주장을 평가하기 위한 표준을 설명하기 위한 비공식 논리 또는 새로운 수사
4.3 Informal logic or new rhetoric to elucidate standards for evaluating validity arguments

[비공식 논리]나 [새로운 수사학]도 보편적 진실을 제공한다고 주장하지는 않지만, 겉으로 보기에 끝이 없어 보이는 검증 노력이 언제 방어 가능한 정지점stopping point에 도달했는지에 대한 정보를 제공할 수 있다(적어도 새로운 주장이 제기되거나 새로운 청중이 고려되기 전 까지는).

  • [새로운 수사학]은 설득과 청중의 집착을 추구한다.
  • [비공식 논리]는 논증자의 학문이나 분야에 의해 정의되는 관련성, 충분성, 수용성 측면에서 논증적 타당성을 추구한다.

두 렌즈 모두 HPE 내에서 잘 작동합니다. 그러므로, 어떤 것을 사용할 것인가를 선택하는 것은 개인의 철학적 세계관에 달려있을 수 있다. 
Neither informal logic nor new rhetoric claim to provide a universal truth, but they could inform when seemingly unending validation efforts have reached defensible stopping points (at least until new arguments are put forth or new audiences are considered). New rhetoric seeks persuasion and audience adherence. Informal logic seeks argument cogency, often in terms of relevance, sufficiency, and acceptability as defined by the arguer's discipline or field. Both lenses would work well within HPE; therefore, choosing which to use may depend on one's philosophical worldview.

비공식 논리는 [후기 실증주의 세계관]과 잘 일치할 수 있는 반면, 새로운 수사학은 [구성주의나 비판적 현실주의] 관점과 더 잘 일치할 수 있다. 그러나, 비공식 논리와 새로운 수사학은 특정한 세계관에 제한되지 않는다. HPE의 이질적인 철학적 세계관을 고려할 때, 모든 주장자와 청중에게 맞는 하나의 주장 지향성을 기대하는 것이 합리적인가? 아마 아닐 겁니다. 그러나 우리는 타당성 작업을 수행할 때 우리의 주장 패러다임을 분명히 인정해야 하며, 특히 청중들의 주장도 고려해야 한다. 그렇게 하면 HPE 검증 작업에서 충돌을 일으킬 수 있는 세계관과 주장 패러다임의 오해를 피하는 데 도움이 될 수 있다. Tavares 외 연구진은 평가에서 호환성 원칙compatibility principle을 다음과 같이 설명했다. "평가 계획 사이에 또는 평가 계획 내에 서로 다른 철학적 입장이 존재할 수 있으며, 이러한 입장이 평가 설계자에게 특정 아이디어와 가정을 위임한다는 것을 인식할 의무" 우리는 호환성 원칙이 HPE 타당성에 짜여진 논쟁의 철학에도 적용된다고 믿는다.

Informal logic may align well with post-positivist worldviews,99, 100 whereas new rhetoric likely aligns better with constructionist or critical realist views.101, 102 However, informal logic and new rhetoric are not restricted to any specific worldview; each will manifest in different ways when employed with different philosophical beliefs. Given the heterogenous philosophical worldviews in HPE, is it reasonable to expect one argumentation orientation to fit all arguers and audiences? Likely not. But we should explicitly acknowledge our argumentation paradigms when undertaking validity work, and specifically consider our audience's as well. Doing so can help avoid misunderstanding of worldviews and argumentation paradigms that could cause conflict in HPE validation work.103 Tavares et al described a compatibility principle in assessment as “the obligation to recognize that different philosophical positions can exist between and within assessment plans and that these positions commit assessment designers to particular ideas and assumptions.”104 We believe the compatibility principle also applies to the philosophies of argumentation woven into HPE validity.

4.4 HPE 평가 검증에서 논증을 사용하는 나머지 과제
4.4 Remaining challenges of using argumentation in HPE assessment validation

우리는 비공식 논리와 새로운 수사법이 HPE 타당성 주장을 위한 유용한 방향이라고 믿지만, 몇 가지 과제는 여전히 해결되어야 한다.

  • 첫째, 어떤 주장 방향이 학습자, 프로그램 리더, 인가자 및 인증자와 같은 HPE 이해 관계자에게 공명하는지에 대해서는 거의 알려져 있지 않다. 향후 연구는 이러한 그룹들이 가질 수 있는 잠재적인 주장 가정을 발견하기 시작할 수 있다.
  • 둘째, 여러 청중의 가치에 영합하는 것은 타당성 논쟁을 새로운 수사 패러다임에서 벅찬 과제로 만들 수 있다. 각 이해관계자 그룹은 평가와 타당성에 대한 가치 및 이해도가 다를 수 있습니다. 교육자들이 각 집단마다 고유한 타당성 주장이나, 설득력 있고 모두가 받아들일 수 있는 단일 주장을 개발할 수 있을지는 불분명하다.
  • 셋째, 특히 청중 가치와 평가 기준과 관련하여 HPE 내의 헤게모니 및 형평성에 대한 검증에 비공식 논리 또는 새로운 수사학을 주입하는 영향을 고려하고 연구해야 한다.

Though we believe informal logic and new rhetoric are useful orientations for HPE validity argumentation, several challenges must still be addressed.

  • First, little is known about which argumentation orientations resonate with HPE stakeholders such as learners, programme leaders, accreditors, and certifiers. Future research could begin to unearth the latent argumentation assumptions that these groups may carry.
  • Second, catering to the values of multiple audiences could make validity argumentation a daunting task in a new rhetoric paradigm. Each stakeholder group likely has different values and understandings of assessment and validity. It is unclear if educators can develop a validity argument that is unique to each group, or a single argument that is persuasive and acceptable to all.
  • Third, we must consider and study the impact of infusing informal logic or new rhetoric into validation on hegemony and equity within HPE, particularly with regard to audience values and evaluative standards.

Addey 등은 "민주적 공간"을 요구하였으며, 그래야만 "정당하게 다양한 주장과 의도가 인식, 고려, 조립 및 표시될 수 있다." 고 말하였다. 그런 민주적 공간을 만들면 모든 이해관계자들의 목소리가 확실히 들릴 수 있다. 마지막으로, 우리는 Toulmin의 주장 모델이 HPE 유효성 주장의 분석과 평가를 개선할 수 있다고 믿지만, 이 가설을 테스트하기 위해서는 경험적 연구가 필요하다. HPE 커뮤니티가 이러한 한계와 과제를 탐구할 때까지 평가 타당성 주장은 사례 연구의 경우와 같은 프로그램의 블랙박스로 남을 것이다.

Addey et al call for “democratic spaces” in which “legitimately diverse arguments and intentions can be recognized, considered, assembled, and displayed.”105 Creating such democratic spaces can ensure that all stakeholder voices are heard. Finally, although we believe Toulmin's argumentation model could allow for improved analysis and evaluation of HPE validity arguments, empirical studies are needed to test this hypothesis. Until the HPE community explores these limitations and challenges, assessment validity argumentation will remain a black box for programmes such as the one in our case study.

4.5 한계
4.5 Limitations

우리의 저자 그룹은 HPE 타당성 주장에 가장 유용한 비공식 논리와 새로운 수사학을 선택했지만, 우리가 선택하지 않은 몇 가지 다른 주장 지향이 있다(작은 선택 사항은 표 1에 제시됨). 우리는 다른 학자들이 HPE에 이러한 다른 방향들이 특히 이산적 구조(형식 변증법 및 실용적 변증법)를 중시하거나 실증주의 세계관을 가질 경우 더 유용할 수 있다는 것을 인정한다. 우리는 또한 논쟁 이론의 길고 풍부한 역사를 고려할 때, 우리가 모든 방향과 접근방식을 완전히 검토하는 것은 불가능했다는 것을 인정한다.
Though our author group selected informal logic and new rhetoric as most useful for HPE validity argumentation, there are several other argumentation orientations that we did not select (a small selection is presented in Table 1). We acknowledge that other scholars might find these other orientations more useful to HPE, particularly if they value discursive structure (formal dialectics and pragma-dialectics) or have positivist worldviews (formal logic). We also acknowledge that given the long and rich history of argumentation theory, it was impossible for us to fully review every orientation and approach therein.

4.6 결론
4.6 Conclusion


HPE 학자들은 Messick5 또는 Kane의 일반적으로 사용되는 프레임워크 내에서 조직된 다양한 평가 결정에 대한 강력한 타당성 증거를 발표했다. 비록 이것들이 타당성 증거를 구성하는 방법의 훌륭한 예를 제공하지만, 다음의 것들을 명시적으로 설명하지 않는다.

  • 누가 증거를 평가해야 하는가? 
  • (증거뿐만 아니라) 논쟁이 취해야 할 구조는 무엇인가?
  • 평가를 위해 어떤 기준을 사용해야 하는가?

이러한 누락은 [증거]가 [주장]과 동일하고, [증거]를 단순히 배치함으로써 타당성 판단이 내려졌다는 개념을 전파한다. 이 원고에서는 비공식 논리와 새로운 수사법이 평가에서 타당성을 가지고 HPE의 진행 중인 작업을 진전시키는 데 어떻게 도움이 될 수 있는지 자세히 설명하였다. 각 이론은 모호하고 비활성적인 HPE 평가 타당성 증거를 더 명확하고 생동감 있는 타당성 주장으로 변환하기 위한 여지를 제공한다.

HPE scholars have published robust validity evidence13, 38-40, 106 for various assessment decisions organised within the commonly used frameworks of Messick5 or Kane.27 Although these provide excellent examples of how to organise validity evidence, they do not explicitly describe

  • who should evaluate the evidence (audience),
  • what structure the argument (not just the evidence) should take, and
  • what criteria should be used for evaluation.

This omission propagates the notion that evidence equals argument and that a validity judgement has been rendered by simply laying out the evidence. In this manuscript, we have detailed how informal logic and new rhetoric can help advance HPE's ongoing work with validity in assessment. Each theory offers affordances for transforming ambiguous, inert HPE assessment validity evidence into clearer, animate validity arguments.

 


Med Educ. 2022 Jul 19.

 doi: 10.1111/medu.14882. Online ahead of print.

How argumentation theory can inform assessment validity: A critical review

Affiliations collapse

Affiliations

1Department of Pediatrics, University of Cincinnati College of Medicine, Cincinnati, Ohio, USA.

2School of Health Professions Education (SHE), Maastricht University, Maastricht, The Netherlands.

3School of Health Professions Education Faculty of Health, Medicine and Life Sciences of Maastricht University, Maastricht, The Netherlands.

4Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

PMID: 35851965

DOI: 10.1111/medu.14882

Abstract

Introduction: Many health professions education (HPE) scholars frame assessment validity as a form of argumentation in which interpretations and uses of assessment scores must be supported by evidence. However, what are purported to be validity arguments are often merely clusters of evidence without a guiding framework to evaluate, prioritise, or debate their merits. Argumentation theory is a field of study dedicated to understanding the production, analysis, and evaluation of arguments (spoken or written). The aim of this study is to describe argumentation theory, articulating the unique insights it can offer to HPE assessment, and presenting how different argumentation orientations can help reconceptualize the nature of validity in generative ways.

Methods: The authors followed a five-step critical review process consisting of iterative cycles of focusing, searching, appraising, sampling, and analysing the argumentation theory literature. The authors generated and synthesised a corpus of manuscripts on argumentation orientations deemed to be most applicable to HPE.

Results: We selected two argumentation orientations that we considered particularly constructive for informing HPE assessment validity: New rhetoric and informal logic. In new rhetoric, the goal of argumentation is to persuade, with a focus on an audience's values and standards. Informal logic centres on identifying, structuring, and evaluating arguments in real-world settings, with a variety of normative standards used to evaluate argument validity.

Discussion: Both new rhetoric and informal logic provide philosophical, theoretical, or practical groundings that can advance HPE validity argumentation. New rhetoric's foregrounding of audience aligns with HPE's social imperative to be accountable to specific stakeholders such as the public and learners. Informal logic provides tools for identifying and structuring validity arguments for analysis and evaluation.

When I say…응답 프로세스 타당도 근거(Med Educ, 2022)
When I say…response process validity evidence
Sneha Shankar1 | Christina St-Onge2 | Meredith E. Young1

 

[성과 기반 평가]는 평가자의 판단에 따라 크게 달라지며, 학습자가 평가 과제 중 무엇이 필요한지 이해하는 방법과 평가자가 무엇이 필요한지 이해하는 방법을 포함한 다양한 요인에 의해 형성된다. 역량 구성 요소에 대한 평가자의 관점이 점수를 어떻게 바꿀 수 있는지 또는 학습자의 행동이나 동기가 평가 순간을 어떻게 형성할 수 있는지와 같은 일부 요소는 의도하지 않은 방식으로 평가를 형성할 수 있다. [평가자와 학습자가 평가와 상호 작용하는 방법]을 더 잘 이해하면 평가가 의도한 대로 기능하는지 여부에 대한 중요한 정보를 얻을 수 있습니다. 여기에는 평가가 설계된 맥락에서 공정하게 사용되고 있는지 또는 공평하게 사용되고 있는지도 포함됩니다. [평가자나 학습자가 평가 과제와 상호 작용하는 방법(즉, 이해, 평가, 해석, 수행)]을 탐구하는 것은 응답 프로세스 타당성 증거, 즉 타당성 주장을 구축하는 데 중요한 증거이지만 만성적으로 조사 및 보고가 부족한 증거이다.

Performance-based assessments depend heavily on assessor judgement,1, 2 and are shaped by a variety of factors including how a learner understands what is required during an assessment task and how a rater understands what is required of them. Some factors may shape assessments in a way that is not intended, such as how an assessor's view of what constitutes competency might shift scoring1 or how learner behaviour or motivation may shape an assessment moment.2 Better understanding of how assessors and learners interact with assessments provide critical information about whether an assessment is functioning as intended, including whether it is being used fairly or equitably in a context for which it was designed. Exploring how an assessor or learner interacts with an assessment task (i.e. understands, rates, interprets, performs) is the focus of response process validity evidence, evidence that is critical to building a validity argument but evidence that is chronically underinvestigated and underreported.3, 4

점수 해석을 지원하기 위해 타당성 증거를 수집하는 것이 보건 전문가 교육(HPE)의 표준 관행이 되었다. [응답 프로세스]는 개인(예: 평가자 또는 학습자)이 [평가 및 평가 도구의 특정 문항과 상호 작용할 때 어떤 일이 발생하는지]를 검토하는 특정 유효성 근거의 출처입니다.5 본 원고에서 응답 프로세스 타당성 증거를 설명함에 있어, 우리는 [교육 및 심리 테스트 표준]과 교육 측정 분야에서 새롭게 부상하는 연구의 통일된 관점에서 크게 도출한다.

It has become standard practice within Health Professions Education (HPE) to collect validity evidence in support of score interpretation. Response process is a specific source of validity evidence that examines what happens when an individual (e.g. an assessor or learner) is interacting with an assessment and/or specific items in an assessment tool.5 In describing response process validity evidence in this manuscript, we draw heavily from the unified view of validity in the Standards for Educational and Psychological testing,5 and emerging research from the discipline of educational measurement.6 

이 기사에서는 HPE에 적용하기 위해 익은 교육 측정의 새로운 증거를 통합하기 위해 크라이터와 다우닝의 대응 프로세스에 대한 설명을 확장한다. 이 설명에서, 우리는 인지 프로세스를 넘어 감정, 행동 및 동기에 대한 고려를 대응 프로세스로 포함하도록 확장하고, 대응 프로세스 타당성 증거가 평가 공정성과 공정성을 평가하는 데 어떻게 중요한 역할을 할 수 있는지 설명한다.5 응답 프로세스 증거는 평가, 항목 또는 점수의 의미 또는 해석의 차이를 밝히는 데 도움이 될 수 있으며 평가자가 평가 사용 및 성과 모두에서 응답 패턴을 형성할 수 있는 요소를 더 잘 이해하는 데 도움이 될 수 있다.

In this article, we expand on Kreiter's,7 and Downing's8 description of response processes to integrate emerging evidence from educational measurement6 ripe for application in HPE. In this description, we expand beyond cognitive processes to include consideration for emotions, actions and motivations as response processes69 and describe how response process validity evidence can play an important role in evaluating assessment equity and fairness.5 Response process evidence can help shed light on differences in the meaning or interpretation of assessments, items or scores and can help assessors to better understand factors that may shape patterns of responses in both assessment use and performance.5

1957년, 로빙거는 평가가 의도된 현상을 얼마나 효과적으로 측정하는지를 이해하기 위해서는 [평가 또는 테스트 중의 행동 및 그에 반응한 행동]을 의미하는 "측정 상황context of measurement"을 고려할 필요가 있다고 처음으로 언급했다. 이는 특히 [수행-기반 평가]와 관련이 있다. 왜냐하면 평가는 역동적 컨텍스트 내에서 이루어지기 때문에, 평가자가 학습자를 평가할 때 [상황 정보]가 [수행 판단]에 통합되어 [평가 점수]로 변환되기 때문이다. 따라서, 응답 프로세스 타당성 증거에는 다음 두 가지 행동에 대한 검토를 포함한다.

  • 평가자(예: 특정 성과에 대해 '기대 수준' 또는 '기대 이상'으로 평가하는지 여부) 
  • 평가 대상자(예: 학습자가 평가 항목에 대한 해석 또는 '좋은' 성과에 기대되는 내용을 해석하고 제정) 

In 1957, Loevinger10 first noted that in order to understand how effectively an assessment measures the intended phenomenon, one needs to consider the “context of measurement,”(p.665) referring to behaviour during, and in response to, the act of assessing or testing. This is particularly relevant for performance-based assessments, as assessment happens within a dynamic context—when assessors rate learners, contextual information is integrated into judgements of performance that are then transformed into an assessment score.1 Therefore, response process validity evidence includes examining the behaviour of

  • an assessor (e.g. whether a particular performance is scored as ‘meets’ or ‘exceeds expectations’) and
  • the assessment taker5 (e.g. learner interpretation of an assessment item, or interpreting and enacting what they believe is expected in a ‘good’ performance).

타당성은 고도로 맥락적이기 때문에, 평가자와 학습자의 관점 모두에서 반응 과정을 조사하면 평가에 어떻게 respond in, respond to 하는지에 대한 통찰력을 얻을 수 있다. 응답 프로세스를 검토하여 수집된 데이터는 [평가가 의도한 대로 사용되고 이해되고 있는지]를 막후에서behind the scenes 확인할 수 있습니다. 또한 [평가가 공평하게 사용되고 있는지]도 살펴볼 수 있습니다. 다시 말해, 평가가 여러 학습자 간 동등한 방식으로 이해되고 있는지, 모든 학습자에게 공정하고 공평하게 성과를 판단하는 방식으로 평가자가 사용하고 있는지 탐구한다.

Since “validity is highly contextual,”2(p.297) investigating response processes from both assessor and learner perspectives provides a glimpse as to how both respond in, and respond to, assessment. Data collected through examining response processes provide a behind the scenes look at whether an assessment is being used and understood as intended. It also offers a look at whether an assessment is being used equitably. In other words, it explores whether an assessment is understood by learners in a comparable way and whether it is being used by assessors in a way that judges performance fairly and equitably for all learners.

응답 프로세스 타당성 증거를 고려할 때 [개인이 평가에 참여하는 방식에 대한 가정]에 의문을 제기할 수 있다. 그것이 예상대로든, 예상 밖이든 말이다. 예를 들어, 우리가 가지고 있는 한 가지 가정은 평가 개발 및 구현 프로세스의 일부로서 [평가자 교육의 가치]입니다. [평가자 훈련]은 평가의 일관성을 위한 노력이다. 충분한 교육을 받으면 학습자를 일관성있게 판단할 것이고, 평가자가 평가 점수에 영향을 주는 상황적 요소(예: 컨텍스트 또는 학습자 특성) 에 대해 면역력을 가질것이라고 가정한다. [평가자가 학습자를 균일하게 판단할 것이라는 가정]은 다음과 같은 현상 사이에 완벽한 일관성이 존재할 수 있고, 그것이 모든 학습자에게 복제될 수 있다고 가정한다.

  • 평가하려는 현상(즉, 특정 기술 성과)
  • 평가자의 반응(즉, 인지적 또는 감정적 처리) 
  • 최종 판단(즉, 평가 점수), 

Considering response process validity evidence encourages us to question our assumptions about how individuals engage with an assessment—whether in expected or unexpected ways.11 For example, one assumption we hold is the value of assessor training as part of our assessment development and implementation process.1 Assessor training strives for consistency in ratings, which rests on the notion that with enough training; assessors will judge learners consistently and therefore become immune to contextual factors that may otherwise shape assessment scores (e.g. whether context or learner characteristics). The assumption that an assessor will judge learners uniformly suggests that there can be perfect consistency between

  • the phenomenon that one intends to assess (i.e. specific skill performance),
  • an assessor's response (i.e. cognitive or emotional processing), and
  • eventual judgement (i.e. assessment score),
    ...that can be replicated for all learners.

[평가자 교육에 대한 우리의 믿음]은 개인이 평가와 상호 작용하는 방식과 이러한 상호 작용이 상황적 요인에 의해 형성되는 방식에 대한 중요한 고려사항을 못 보게 만들 수 있으며, 따라서 의도치 않게 응답 프로세스에 대해 우리가 놓치게 만들 수 있다. 이는 평가의 공정성과 형평성을 고려하는 것과 특히 관련이 있다. 또한 응답 프로세스가 상황 또는 학습자 특성(성별이든, 영어능력이든, 인종이든)에 따라 어떻게 변화하는지와 관련이 있다. 따라서 응답 프로세스를 고려하는 것은 점수 해석의 공정성과 형평성, 그리고 평가자와 학습자의 상호의존성에 대한 중요한 정보를 제공할 수 있으며, 건전한 타당성 주장을 구축하는 데 중요하다.
Our faith in assessor training may overshadow important considerations for how individuals interact with assessments and how these interactions are shaped by contextual factors and therefore unintentionally minimise our attention to response processes. This is particularly relevant when considering equity and fairness in assessment and how response processes may shift across contexts or learner characteristics—whether gender, English language competency or race. Therefore, consideration of response processes can provide important information about the fairness and equity of score interpretations and the interdependency of an assessor and learner11 and are critical for building a sound validity argument.

[응답 프로세스 타당성 증거]는 평가자와 학습자 모두에 초점을 맞추며, 평가의 맥락에서 인식, 감정, 행동 및 동기에 대한 고려도 포함한다. 이러한 다면적인 관점은 [인지, 감정 및 동기 부여 수준에서 개개인이 평가에 어떻게 상호작용하고 참여하는지]에 초점을 맞추고, [평가자와 평가 순간에 걸쳐 점수의 의미에 잠재적인 차이]를 허용한다. 평가자, 학습자 및 환경 간의 이러한 상호 작용은 [상호의존적 효과interdependent effects]로 분류되었으며 HPE의 성과 기반 평가 상호 작용을 형성할 수 있다. HPE의 연구는, 평가자의 인지 과정에 대한 연구와 성과 평가 중 학습자가 임상 팀과 상호 작용하는 방법을 설명하는 상호의존적 효과에 대한 연구를 포함하여, [평가 순간의 복잡성]을 더 잘 이해하는 데 기여했다. [응답 프로세스 증거]는 다음의 것들 사이의 정렬을 조사한다.

  • 평가자와 학습자가 [평가의 목표를 이해]하는 방법,
  • [평가 내 항목에 관여]하는 방법,
  • [평가 대상에 대한 공유된 이해] 여부(예: 기술, 역량 또는 관심 행동)

이 타당성 증거는 평가 데이터 해석을 지원하고 점수 해석과 이러한 점수에 기초한 결정이 정당화되는지 여부를 검증하는 데 도움이 된다. 

Response process validity evidence includes a focus on both the assessor and learner and includes consideration for their cognitions, emotions, actions and motivations in the context of assessment.6, 9 This multifaceted perspective places focus on how individuals interact and engage with an assessment at a cognitive, emotional and motivational level, as well allowing for potential differences in the meaning of scores across assessors and across assessment moments.5 These interactions between assessor, learner and environment have been labelled interdependent effects and can shape performance-based assessment interactions in HPE.11 Research in HPE has contributed to better understanding the complexity of an assessment moment, including work on the cognitive processes of assessors1 and interdependent effects that describe how a learner interacts with the clinical team during assessments of performance.11 Response process evidence examines the alignment between

  • how an assessor and learner understand the goals of an assessment,
  • how they engage with items within an assessment and
  • whether there is a shared understanding of the assessment target (i.e. skill, competency or behaviour of interest).

This validity evidence helps to build a validity argument to support assessment data interpretation and verify whether score interpretations, and decisions based on these scores, are justified.12

HPE의 [수행-기반 평가]를 위한 [응답 프로세스 타당성 증거]를 수집하는 것은 다양한 형태를 취할 수 있으며, 어려울 수도 있다.

  • 평가를 통해 수집된 데이터는 [문항 반응item response]을 조사하고, 하위 그룹 간에 통계적으로 반응을 비교하여, 문항이 다양한 하위 그룹(예: differential item functioning)에 걸쳐 다르게 기능하는지 여부를 판단함으로써 공정성을 검사할 수 있다. 
  • 개인(평가자 또는 학습자)이 [평가와 상호 작용할 때 인지 과정]을 탐구하기 위해, 예를 들어, think-aloud 프로토콜을 사용하여 질적 데이터로 수집될 수 있다. 생각을 크게 하는 인터뷰는 주로 개인이 평가와 상호 작용할 때 어떤 생각을 하는지, 그리고 그 생각이 학습자의 기대(또는 예상하지 못한) 성과 또는 평가자의 점수와 어떻게 관련될 수 있는지를 이해하는 데 초점을 맞춘다. 
  • 반응 프로세스가 인지 범위를 넘어 [감정, 행동, 동기]를 포함하도록 확장된다는 인식이 커짐에 따라, 이러한 프로세스가 어떻게 평가 모멘트를 형성하고 그것이 생성하는 점수를 보다 완전하게 이해하도록 다양한 방법론을 도입할 수 있다.

Collecting response process validity evidence for performance-based assessment in HPE can take a variety of forms and can be challenging.

  • Data collected through assessments can be examined for fairness, by examining item responses and comparing responses statistically across subgroups to determine whether items function differently across various subgroups (e.g. differential item functioning).
  • Data can also be gathered qualitatively, for example, using think-aloud protocols, to explore the cognitive processes of individuals (assessors or learners) as they interact with an assessment. Think-aloud interviews primarily focus on understanding what individuals are thinking as they interact with an assessment and how that thinking may relate to anticipated (or unanticipated) performances from a learner or scores from an assessor.
  • With greater recognition that response processes expand beyond cognition to include emotions, actions, and motivation,69 a multitude of methodologies can be brought to bear to more fully understand how these processes shape assessment moments and the scores they generate.

전반적으로, [응답 프로세스]는 평가 데이터를 기반으로 한 주요 의사결정에 대한 지원을 제공하는 타당성 증거의 귀중한 원천입니다. 쿡이 상기시키듯이, 어떤 해석이 타당성에 대한 의도적인 검증을 버텨낸다면, 그 해석은 평가의 사용제안과 평가 데이터의 이해에 대한 정당성을 제공할 것이다. [응답 프로세스 타당성 증거]는 예상되는 평가자와 학습자의 행동을 고려할 때, 제안된 평가 데이터의 해석이 정당하다는 것을 확인하는 데 도움이 된다. 평가는 다양한 형태를 취하며, 본 문서는 주로 수행-기반 평가에 초점을 맞추고 있지만, 응답 프로세스는 (서면 평가에서 포트폴리오까지) 모든 평가 형식에 대한 핵심 품질 지표입니다. HPE의 복잡성과 상황에 따라 동원되는 다양한 평가를 고려할 때, 대응 프로세스는 방어 가능한 평가 시스템을 구축하는 핵심 수단이다.

Overall, response processes are a valuable source of validity evidence that provides support for key decisions made based on assessment data. As Cook12 reminds us, if interpretations hold during deliberate tests of validity, these interpretations provide justification for the proposed use and understanding of assessment data. Response process validity evidence helps verify that our proposed interpretation of assessment data is justifiable given expected assessor and learner behaviour. Assessments take a variety of forms, and although this article has focused primarily on performance-based assessments, response processes are key quality markers for all assessment formats—from written assessments to portfolios. Given the complexity of HPE and the variety of assessments mobilised across contexts, reponse processes are a key means through which we build defensible assessment systems.


Med Educ. 2022 Sep;56(9):878-880.

 doi: 10.1111/medu.14853. Epub 2022 Jun 15.

When I say…response process validity evidence

Affiliations collapse

Affiliations

1Institute of Health Sciences Education, Faculty of Medicine and Health Sciences, McGill University, Montreal, Québec, Canada.

2Department of Medicine, Faculty of Medicine and Health Sciences, Université de Sherbrooke, Sherbrooke, Québec, Canada.

PMID: 35688144

DOI: 10.1111/medu.14853

숫자는 요약하고, 글자는 설명한다: 위임 평정에서 코멘트를 평가와 피드백 목적으로 활용하기(Acad Med, 2021)
Numbers Encapsulate, Words Elaborate: Toward the Best Use of Comments for Assessment and Feedback on Entrustment Ratings 
Shiphra Ginsburg, MD, PhD, Christopher J. Watling, MD, PhD, Daniel J. Schumacher, MD, PhD, MEd, Andrea Gingerich, PhD, and Rose Hatala, MD, MSc 

 

 

단순성은 엄청나게 복잡하다. "사랑해"라는 문장을 생각해 보세요. —리처드 O. 무어, 침묵의 글쓰기, 2010

Simplicities are enormously complex. Consider the sentence “I love you.” —Richard O. Moore, Writing the Silences, 2010


위임 등급에 대한 아이디어는 기회와 경제성을 결합하기 때문에 유혹적이다. 감독관들은 매일 훈련생들에게 특정한 환자 치료 업무를 수행하도록 위탁하는 판단을 하며, 감독량은 다양하다. 이러한 자연발생적인 판단을 활용하여 의미 있는 전공의 평가를 진행하는 것은 어떨까요? 아이디어는 거부할 수 없는 단순성을 가지고 있습니다. 즉, 상사가 "직장의 교육생과 함께 일하고 결정을 내리는 방법"의 구성을 전공의 평가에 맞추는 것입니다. 그럼에도 불구하고, 겉보기에는 간단해 보이는 개념을 조작화하는 것은 매우 어려웠다.
The idea of entrustment ratings is seductive because it combines opportunity and economy. On a daily basis, supervisors make judgments to entrust trainees to carry out specific patient care tasks, with varying amounts of supervision. Why not harness these naturally occurring judgments to drive meaningful resident assessment? The idea has an irresistible simplicity: to align the construct of how supervisors “work with and make decisions about trainees in the workplace” with resident assessment. 1 And yet, it has been exceedingly difficult to operationalize such a seemingly straightforward concept.

일반적인 위임 등급 양식은 숫자 척도와 작성된 주석을 결합한다. 숫자 척도를 포함하는 것은 단순성, 캡슐화 능력 및 익숙함으로 인해 숫자에 끌리기 때문에 직관적으로 보인다. 숫자는 우리의 생물의학 세계의 많은 측면과 일치하는 객관성의 겉모양을 가지고 있다. 그러나 우리는 또한 숫자만을 사용하는데 있어서 한계를 알고 있는데, 이는 건조하고, 무균하며, 맥락상 세부사항이 결여되어 보일 수 있다. 숫자를 정당화하고, 풍부하게 하거나, 대체할 수 있는 가능성이 있는 단어를 추가한다. 단어는 숫자가 할 수 없는 새로운 정보를 제공한다. 그러나 누가 그 말씀을 읽고, 어떻게 해석하며, 그것으로 무엇을 할 것인가 ?
A typical entrustment rating form combines a numeric scale with written comments. Including a numeric scale seems intuitive, as we are drawn to numbers for their simplicity, their ability to encapsulate, and their familiarity. Numbers have a veneer of objectivity that aligns with many aspects of our biomedical world. But we also recognize the limitations in using numbers alone, which can seem dry, sterile, and lacking in contextual details. Enter words, which hold the potential to justify, enrich, or supplant the numbers. 2–4 Words provide novel information that numbers cannot. But who will read the words, how will they be interpreted, and what will be done with them?

단어 사용에 대한 간략한 설명입니다. "내러티브"라는 단어는 서면 평가 코멘트에 초점을 맞춘 많은 연구에서 사용되어 왔지만, 여기서는 특별히 그 사용을 피하기로 한다. [내러티브]는 [스토리를 내포]하고 있으며, 이는 [여러 주에 걸친 로테이션에서 관찰을 통합, 합성 및 문서화하는 것]이 목적인 [교육 내 평가 보고서(ITER)]에 초점을 맞춘 연구에 잘 들어맞는다. 그러나 대부분의 위임 등급에 포함된 코멘트는 단일 관찰된 만남과 관련이 있으며 설계상 훨씬 짧다. — 따라서 [이야기]라기보다는 [문자 메시지]에 가깝습니다. 예를 들어, 정신의학에서 완성된 신뢰할 수 있는 전문 활동(EPA) 양식 중 98%는 단 하나의 의견만 포함하고 있었다. 따라서 본 기사에서는 "주석" 또는 "단어words"를 사용함으로써, 위임 등급 양식의 단어가 "내러티브"라는 달성 불가능한 기준에 도달하지 않도록 할 것입니다.

A brief aside on the use of the term “words.” The word “narrative” has been used in many studies focused on written assessment comments, 2,5 but we will specifically avoid its use here. Narrative implies a story, and this fits well in research focused on in-training evaluation reports (ITERs), whose purpose is to integrate, synthesize, and document observations from a multiweek rotation. 4 The comments included with most entrustment ratings, however, are related to a single observed encounter and are by design much shorter—more like a text message than a story. For example, in psychiatry, 98% of completed entrustable professional activity (EPA) forms contained only a single comment. 6,7 Thus, throughout this article, we will refer to “comments” or “words” to avoid holding the words on entrustment rating forms to an unattainable standard of “narrative.”

위임 등급 양식을 구현함에 따라 다양한 문제가 발생했는데, 그 중 중요한 것은 학습자마다 숫자와 단어 모두 데이터의 바다에 빠져 있다는 것이다. 실제로 위임 등급은 교육생의 진도에 대한 종합 결정을 내리는 역량 위원회에 의해 여러 "낮은 이해" 평가를 함께 고려하는 프로그램 평가 시스템 내에서 사용되어야 한다. [프로그램적 평가]는 [다다익선]이는 암묵적인 가정과 함께 대량의 데이터 수집을 장려한다. 숫자와 단어의 강점과 한계를 풀면 이러한 데이터를 관리하고 이해하는 데 도움이 될 수 있습니다. 우리는 숫자와 단어가 서로 다른 어포던스를 가지고 있다는 것을 고려할 필요가 있다. 예를 들어, 숫자는 캡슐화하며, 단어는 정교화한다. 숫자와 단어는 학습자와 감독자에서 프로그램과 사회에 이르는 다양한 청중에게 말한다. 숫자와 단어는 [근본적으로 서로 다른 철학적 입장]을 반영하며, [숫자는 실증주의 또는 후기 실증주의 세계관]을 반영하고, [단어는 구성주의]에 더 부합한다. 8 숫자와 단어의 이중성을 더 복잡하게 만드는 것은 [위임 등급양식]에서 제공하고자 하는 - 때로는 상충하는 - [목적의 이중성(총괄적 평가와 발전적 피드백)]이다.
A variety of issues have arisen as we have implemented entrustment rating forms, not least of which is that we are drowning in a sea of data, both numbers and words, for each learner. Indeed, entrustment ratings are meant to be used within a system of programmatic assessment in which multiple “low-stakes” assessments are considered together by a competency committee, which makes summative decisions about trainees’ progress. Programmatic assessment encourages the collection of a large quantity of data, with an implicit assumption that more is better. It may help us to manage and understand these data if we unpack the strengths and limitations of the numbers and the words. We need to consider that numbers and words have different affordances; for example, numbers encapsulate and words elaborate. Numbers and words speak to different audiences ranging from learners and supervisors to programs and society. Numbers and words reflect fundamentally different philosophical positions, with numbers reflecting a positivist or postpositivist view of the world and words more aligned with constructivism. 8 Confounding the duality of numbers versus words is a duality of purposes that the entrustment rating forms are meant to serve—summative assessment and developmental feedback—which are sometimes at odds.

본 기사에서는 단어에 중점을 두고, 단어와 숫자의 목적, 장점, 한계를 검토하면서, 코멘트 형태의 위탁 등급에 초점을 맞출 것이다. 이러한 등급의 주요 과제를 강조하고 데이터의 바다에서 우리를 구해내고 해안으로 인도할 수 있는 몇 가지 향후 방향을 제안할 것입니다.
In this article, we will focus on entrustment rating form comments, examining the purposes, strengths, and limitations of numbers and words, with an emphasis on the words. We will highlight key challenges in these ratings and suggest some forward directions that may rescue us from the sea of data and bring us to shore.

누가 어떤 목적으로 숫자가 필요한가?
Who Needs Numbers and for What Purpose?


우리는 우선 [위임-관리 척도]의 숫자에 관심을 돌린다. 위임 등급 양식은 일반적으로 각 오름차순 번호를 앵커에 묶은 4점 또는 5점 척도를 사용하며, 이는 제공된 대부분의 감독량에서 최소의 감독량까지 개별적인 감독 판단 또는 결정을 나타낸다. 숫자는 실제로 위임 스케일에 필요한 것은 아니며, 숫자를 사용할 때, [내려진 특정 감독 결정에 대한 간략한 코드]를 나타내는 것으로 생각되어야 한다. 즉, 숫자는 [레이블] 역할을 하지만 카운트나 척도는 아닙니다. 14

We first turn our attention to the numbers on entrustment-supervision scales. Entrustment rating forms commonly use a 4- or 5-point scale with each ascending number tied to an anchor that represents a discrete supervisory judgment or decision ordered from most to least amount of supervision provided. 1,9–13 Numbers are not actually required for entrustment scales, but when they are used, they should be thought of as succinctly representing a shorthand code for a particular supervisory decision that was made; that is, the numbers serve as a label but not as a count or measure. 14

[위임 척도의 숫자]는 현재 내린 감독결정을 [효율적으로 문서화]하거나, 향후 어느 수준의 감독을 사용해야 할지에 대한 [선언을 기록]하는 데 사용될 수 있다. 번호는 프로그램, 관리 및 역량 위원회의 데이터 포인트로 사용할 수 있으며, 교육생에게는 "비망록aide memoire"으 사용할 수 있습니다. [총괄적 목적]으로 사용될 경우, 이 숫자는 [능력 증명]을 간결하게 문서화합니다. 숫자는 또한 대규모 데이터 세트의 정확한 수치 표현을 제공하기 위해 데이터 포인트를 안정적으로 결합, 필터링 및 요약할 수 있는 수학에 도움이 되지만, 이러한 방식으로 [위임-감독 숫자]를 처리하는 것은 논란이 있다. 1
The numbers on entrustment scales can be used to efficiently document a supervisory decision that was made in the moment or record a proclamation of which level of supervision should be used in the future. 1,15 A number can serve as a data point for the program, administration, and competency committees, and as an “aide memoire” for the trainee. When used for summative purposes, the number concisely documents proof of merit. 16 Numbers also lend themselves to mathematics that can reliably combine, filter, and summarize the data points to provide precise numerical representation of a large dataset, although treating entrustment-supervision numbers in this way is controversial. 1

불행히도, 수치 표현을 다시 고부담 감독, 진급, 역량 결정으로 변환하는 과정은 덜 명확하다. 이러한 계산은 [실습생의 활동, 환자, 감독자, 이들의 상호작용과의 engagement]와 [피드백], [결과] 등과 같은 [상황별 세부 정보를 제거한 숫자]를 사용한다. 바로 이 공허함barrenness이 우리로 하여금 단어 없이 숫자에 의존하는 것을 경계하게 만들고 피드백을 오로지 등급으로만 한정하지 않도록 주의하게 만든다. 다음 절에서 논의한 바와 같이, 서면 코멘트는 척도 상의 숫자(및 그 앵커)가 할 수 없는 정보를 제공한다.
Unfortunately, the process to translate a numerical representation back into high-stakes supervisory, progression, and/or competence decisions is less obvious. These computations use numbers stripped bare of the contextual details of the trainee’s engagement with the activities, patients, and supervisors, and their perceived responses to those interactions, feedback, and outcomes. It may be this barrenness that makes us wary of relying on numbers without words and cautions us against limiting feedback solely to ratings. 17 As is discussed in the following section, written comments offer information that numbers (and their anchors) on scales cannot.

의견이 필요한 사용자 및 목적은 무엇입니까?
Who Needs Comments and for What Purpose?

위임 등급 양식에 대한 코멘트는 다양한 기능을 제공할 수 있습니다.

  • 학습자의 관점에서, 코멘트는 [발달적 피드백]을 제공할 수 있습니다. 학습자는 구체적이고 실행 가능한 코멘트를 사용하여 학습 목표를 작성하고 교육이 진행됨에 따라 이러한 목표를 달성하는 과정에서 자신의 진행 상황을 반영할 수 있습니다. 18
  • 감독자의 관점에서, 외부검토의견은 [평가나 결정을 뒷받침할 수 있는 근거]를 제공하고 정당화할 수 있다. 코멘트는 또한 전문적인 행동의 특정 측면과 같이 숫자 척도로 표현되지 않을 수 있는 것을 포착하는 데 사용될 수 있다.
  • 평가 양식의 주석 상자는 프로그램에 메시지를 보내는 데 사용될 수 있으며, 때로는 교육생들이 체면을 차릴 수 있도록 하는 "코딩된" 언어를 사용한다. 프로그램의 관점에서, 코멘트는 점수보다 더 일찍 어려운 학습자를 식별하는 데 도움이 될 수 있으며, 점수와 함께 사용될 때 총결정을 변경할 수 있다.

종합하면, 코멘트는 [고부담 의사 결정]에 사용될 수 있는 [포트폴리오 또는 공식 기록의 일부]가 된다. 24 분명히, 이러한 목적 중 일부는 모순된다. 감독자가 의사 결정에 있어서 [그들의 말이 가질 수 있는 잠재적인 다운스트림 효과]를 고려하지 않고, 서면으로 건설적인 피드백을 제공하는 것은 어렵기 때문이다. 

The comments on entrustment rating forms can serve a variety of functions.

  • If we start from the learner’s perspective, comments can provide developmental feedback. Learners can use specific, actionable comments to create learning goals and reflect on their progress in meeting these goals as training progresses. 18 
  • From a supervisor’s perspective, comments can justify and provide context to support a rating or decision. Comments can also be used to capture what may not be represented in the numeric scales, such as certain aspects of professional behavior. 3,5 
  • Comment boxes on rating forms can be used to send messages to programs, sometimes by using “coded” language meant to allow trainees to save face. 19,20 From a program perspective, comments can help identify learners in difficulty earlier than the scores alone and can change summative decisions when used in combination with scores. 21–23 

In aggregate, comments become part of a portfolio or formal record that can be used for high-stakes decision making. 24 Clearly, some of these purposes are in conflict, as it is difficult for supervisors to provide constructive feedback in writing without considering the potential downstream effect their words might have when it comes to decision making. 20,25–27

서면 코멘트는 ITER와 OSCE 설정 모두에서 의사 결정과 관련하여 신뢰할 수 있고 타당한 것으로 나타났다. ITER 코멘트에 대한 한 연구는 코멘트가 숫자 점수보다 신뢰성이 높은 반면, 데이터가 덜 필요하다는 것을 발견했다. 2 서면 코멘트는 특정 등급과 관련된 맥락적 세부 정보를 제공하는 데 능숙하며, 더 긴 코멘트는 더 많은 특정 코멘트를 전공의로 하여금 더 가치 있다고 느끼게 할 수 있다. EPA 논평에 대한 데이터는 특별히 적지만, 일부 보고서는 이러한 논평이 ITER에서 일반적으로 보고되는 것보다 더 구체적이고 행동적이며, 그렇지 않으면 척도에 포함되지 않는 정보를 포착할 수 있다고 제안한다. 30 따라서 우리는 ITER "내러티브" 데이터를 위탁 등급 코멘트로 추정하는 데 주의를 촉구하지만, 초기 결과는 그것들이 유사하게 유용할 수 있음을 시사한다.
Written comments have been shown to be reliable and valid when it comes to decision making in both ITER and OSCE settings. 2,28,29 One study of ITER comments found that the comments have higher reliability than numeric scores, while requiring less data. 2 Written comments are good at providing contextual detail related to a particular rating, and longer, more specific comments can make residents feel more valued. 26,27 We have less data specifically on EPA comments, but some reports suggest that these comments are more specific and behavioral than what is usually reported on ITERs, 18 and they may capture information that is not otherwise included in the scales. 30 So while we urge caution in extrapolating from ITER “narrative” data to entrustment rating comments, early results suggest they may be similarly useful.

물론 서면 코멘트에 대한 수많은 비판도 있는데, 여기에는

  • 코멘트가 너무 모호하고 구체적이지 않아 유용하지 않으며 학습 향상으로 이어지지 않는 것으로 나타났다.
  • 관찰된 성과에 숫자 점수를 할당하는 것도 주관적인 행동이지만, 숫자에 비해 "너무 주관적인" 것으로 종종 조롱당한다. 33
  • "심리측정학"을 넘어서는 과정에서, 진자를 잘못된 방향으로 너무 많이 휘둘러 [숫자 점수의 적절한 사용을 과소평가하기 시작했다는 우려]가 표현되었다. 34
  • 마지막으로, 서면 평가 의견은 여성이나 과소대표된 소수민족과 같은 특정 집단에 해로울 수 있는 암묵적 편견을 재현하거나 촉진할 수 있다.

Of course there are numerous critiques of written comments as well, including that

  • comments are too vague and nonspecific to be useful and that they have not been shown to lead to learning improvement. 31,32 
  • In comparison to numbers, comments are often derided as being “too subjective,” even though assigning a numeric score to an observed performance is also a subjective act. 33 
  • Concerns have been expressed that in moving “beyond psychometrics,” we may have swung the pendulum too far in the wrong direction and have begun to undervalue appropriate use of numeric scores. 34 
  • Finally, written assessment comments can reproduce or promote implicit bias that can be harmful to certain groups, such as women or under-represented minorities. 35,36

댓글과 점수가 다른 것이 문제인가?
Is It a Problem That the Comments and the Scores Are Doing Something Different?


숫자는 학습자의 성과를 나타내는 [매력적인 줄임말]을 제공하지만, 코멘트는 [더 정교한 그림]을 약속한다. Holmboe 등은 숫자란 단지 코드일 뿐, 단어만이 제공할 수 있는 의미와 뉘앙스에 대한 애착이 없는 불완전한 것이라고 언급하면서, 평가 정보의 양적 요소와 질적 요소 사이의 더 나은 균형을 요구했다. 10 Cate와 Regehr가 지적한 바와 같이, 임상 학습 환경의 최전선에서 이루어지는 위임 결정은 본질적으로 [감독자에 의해 인식된 위험에 대한 판단]이 필요하다. 33 그들은 다음과 같이 지적하며, 이에 대해 유리한 의견을 제시한다. "프리셉터의 주관적 경험에 대한 설명만이 진정으로 방어할 수 있는 유일한 명제이다." 코멘트는 평가 등급에 대한 근거를 제공하고, 관찰된 특정 성과와 관련된 상황별 경고를 강조하며, 그 성과를 감독하는 경험을 명확히 함으로써, [숫자의 무뚝뚝함에 미묘함과 실질성을 더한다]. 사용 가능한 평가 데이터를 풍부하게 함으로써, 단어는 [공정성에 대한 인식을 개선]하고, [방어성을 강화]하며, 역량 위원회 설정에서 [그룹 의사 결정을 용이]하게 한다. 그러나 이 잠재력은 숫자와 단어가 [철학적으로, 그리고 목적을 중심]으로 정렬될 때 가장 쉽게 실현된다. 케인의 타당성 프레임워크를 사용하여, 이 경우 위탁 등급 양식(숫자와 단어 모두)을 사용하는 것은 향후 전공의에게 해당 작업을 맡길 수 있는지에 대한 판단을 제공하는 것이다. 숫자는 [관찰된 수행능력을 분류]하기 위해 쉽게 인식되고 쉽게 처리되는 [레이블]을 제공하며, 단어는 [해당 레이블의 선택을 설명하고 정당화]한다. 간단하죠.

While numbers offer an appealing shorthand for representing learner performance, comments promise a more elaborate picture. Holmboe et al called for a better balance between the quantitative and the qualitative elements of assessment information, noting that numbers are but a code, incomplete without attachment to the meaning and nuance that only words can offer. 14 As ten Cate and Regehr note, entrustment decisions made on the frontlines of the clinical learning environment inherently necessitate a judgment of perceived risk by the supervisor. 33 This, they argue, advantages comments, noting: “documentation of the preceptor’s subjective experience is the only truly defensible proposition.” 33 Comments add subtlety and substance to the bluntness of numbers by providing the rationale for an assessment rating, highlighting the contextual caveats related to a particular observed performance, and articulating the experience of supervising that performance. By enriching the assessment data available, words improve perceptions of fairness, bolster defensibility, and facilitate group decision making in competence committee settings. 37 This potential is most readily realized, however, when numbers and words are aligned both philosophically and around purpose. 8 Using Kane’s validity framework, 38 in this instance, the intended use of the entrustment rating form (both numbers and words) is to provide a judgment regarding whether the resident can be entrusted with that task in the future. The number provides a readily recognized and easily processed label to classify the observed performance, and the words explain and justify the choice of that label. Simple.

그러나 위임 등급 양식은 프로그램 평가에 깊이 포함되어 있으며, 프로그램 평가는 단어로부터 더 많은 것을 기대합니다. 프로그램적 방식의 평가는 [학습자의 성과를 평가하는 것]뿐만 아니라, [학습자의 발전을 촉진하는 것]을 목표로 한다. 위임 평정 양식의 문구는 [두 가지 목적]을 모두 충족시켜야 한다. 그 Words는 한편으로는 [판단이나 결정을 설명하고 합리화]해야 하며, 다른 한편으로는 [개선의 동기를 부여하기 위한 피드백과 코칭도 제공]해야 합니다. 케인의 타당성 프레임워크를 이 문제를 개념화하는 또 다른 방법으로 생각한다면, 단어에 의도된 용도는 유일하지 않다. 프로그래밍 방식의 평가에서 현재 운용되고 있는 이 단어는 [두 가지 목적]을 가지고 있다.

  • a) 학습자의 승진 결정에 기여하기 위해 총괄적으로 사용된다(숫자에 대한 의도된 용도와 일치한다). 
  • b) 학습자에게 개발 피드백을 제공한다.

But entrustment rating forms are deeply embedded in programmatic assessment, and programmatic assessment expects more from words. Programmatic assessment aims not only to assess learner performance but also to stimulate learner development. The words on entrustment rating forms must somehow serve both aims. They must explain and rationalize a judgment or decision on the one hand, while offering feedback and coaching to motivate improvement on the other. If we consider Kane’s validity framework as another way of conceptualizing this problem, there is not a single intended use for the words. 38 As currently operationalized within programmatic assessment, the words serve a dual purpose:

  • a) to be used summatively to contribute toward promotion decisions for learners (which aligns with the intended use for the numbers) and
  • b) to provide developmental feedback to learners.

이 [이중적인 기대]는 일을 엄청나게 복잡하게 만든다. Schut 등은 풍부한 서술적 피드백이 프로그래밍 평가의 개발 목표를 활용하는 데 중요하다고 지적한다. 그러나 [등급을 정당화하는 단어]가 동일하게 ["풍부한 서술적 피드백"]을 구성할 수 있을까? 아마 아닐 것입니다. 비디오화된 OSCE 성과에 대한 통제된 연구에서 Tavares와 동료들은 평가자들이 주로 모든 평가 과제를 총괄적인 것으로 간주하기 때문에, 총괄적이든 형성적이든 비슷하게 평가 과제를 수행한다고 보고했다. 따라서 평가자가 [코멘트의 의도된 목적과 관계없이 유사한 단어를 작성]하더라도, 이것이 평가에도, 피드백에도 [동일하게 효과적]일 수 있거나, [동일한 방식으로 해석될 수 있다]고 가정하는 것은 비약이 될 수 있다.

This double-barreled expectation complicates things immensely. Schut et al point out that rich, narrative feedback is critical to harnessing the developmental aims of programmatic assessment. 39 But can the same words that justify a rating also constitute “rich narrative feedback”? Probably not. Tavares and colleagues, in a controlled study of videotaped OSCE performances, reported that raters engage with assessment tasks similarly, whether they are intended as summative or formative, mainly because they consider all assessment tasks as summative. 40 Thus, it may be a leap to assume that even if assessors do write similar words regardless of the intended purpose of their comments, that their words can be equally effective as both assessment and feedback, or that they will be interpreted the same way.

최근의 한 연구는, 예를 들어, 평가 양식과 참조 서신에 나타날 때, 다른 목적으로 고려될 때, 같은 단어들이 다른 의미를 가질 수 있다는 것을 발견했다. 사실, Schut과 동료들은 이러한 긴장감을 문제 삼았고, 평가 과제의 발달적 목적에 세심한 주의를 기울이지 않는다면 학습이 방해될 수 있다고 제안했다. 41 그러한 세심한 주의를 기울이지 않으면, 학습자들은 [모든 관찰을 판단으로 인식하는 경향]이 있다. 학습자는 자신의 목적이 판단을 통과하기 위한 것인지 아니면 개발을 돕기 위한 것인지 여부에 따라 코멘트와 다르게 상호작용할 수 있습니다.

One recent study found that the same words may take on different meanings when considered for different purposes, for example, when appearing on an assessment form versus a reference letter. 20 Schut and colleagues, in fact, have problematized this tension, suggesting that learning may be stymied unless the developmental purpose of assessment tasks receives careful attention. 41 In the absence of such careful attention, learners tend to perceive all observations as judgment. Learners may interact with comments differently depending on whether they believe their purpose is to pass judgment or to aid development.

긴장 완화: 단어와 목적의 일치
Reconciling Tensions: Aligning Words With Purpose

어떻게 하면 발달적 마음가짐을 장려하면서, 위임 기반 평가 순간에 감독 결정을 포착하는 단순성에 충실할 수 있을까요? 캐나다 맥락에서 위임 기반 평가에 대한 2개의 연구에서, 전공의들은 EPA 평가의 필요한 양과 총괄적 의도가 전공의와 교수진 모두에게 "체크박스" 행위로 이어졌고, 피드백 대화의 품질을 희생시키면서 피드백 양을 증가시켰으며, 전공의와 감독자 관계를 긴장시켰다는 것을 인지했다. 전공의들은 또한 구두 피드백이 숫자와 서면 의견보다 더 큰 가치와 효용성을 가지고 있다는 것을 인식하여 때때로 학습 대화에 참여하기 위해 양식 작성 연습을 피했다. 이는 [평가 활동을 개발 활동과 분리]하고, [구어와 문어의 서로 다른 역할을 고려]하는 등, 아래에서 살펴볼 수 있는 몇 가지 흥미로운 잠재적 방향으로 이어진다.

How can we remain true to the simplicity of capturing supervisory decisions in entrustment-based assessment moments, while encouraging a developmental mindset? In 2 studies of entrustment-based assessments in the Canadian context, residents perceived that the required volume and summative intent of EPA assessments led to a “tick-box” exercise by both residents and faculty, increased the volume of feedback at the expense of lower-quality feedback conversations, and strained the resident–supervisor relationship. 42,43 Residents also perceived that verbal feedback had greater value and utility than numbers and written comments, so much so that they sometimes circumvented the form-filling exercise to engage in learning conversations. 42 This leads to some interesting potential directions forward which we explore below, including separating assessment activities from developmental ones and considering different roles for spoken versus written words.

위임 기반 평가에서 단어의 [발전적 가능성]을 활용하려면, 평가와 피드백을 위한 [이중 목적]이 최선의 방향인지 신중하게 고려해야 한다. 25 두 가지 목적을 가지는 경우, 결국 둘 중 하나도 충족하지 못할 수 있다. 개념적 수준에서, 타당성 주장의 다른 추론이 서로 다른 의도된 사용을 지원하기 위해 작용하기 때문에 이중 목적은 불가능해 보인다. 38 그러나, 우리 분야의 일부 사고 리더들은 이중 목적을 가능하다고 본다. 평가가 "둘 중 하나"가 아니라 "둘 다"가 될 수 있다는 것이다. 이 난제를 해결하는 것은 매우 중요하다.
If we wish to harness the developmental potential of words in our entrustment-based assessments, we must carefully consider whether dual purposing for both assessment and feedback is the best direction forward. 25 Dual purposing may end up not serving either intended use well. 25,44,45 At a conceptual level, dual purposes seem an impossibility as different inferences in the validity argument come into play to support different intended uses. 38 However, some thought leaders in our field see dual purposing as a possibility—that an assessment does not have to be “either-or” but rather can be “both-and.” 46 Sorting out this conundrum is crucial.

[1] 우리는 우리의 양식을 이중 목적화하는 것을 멈추고, 대신 숫자와 단어들을 평가의 명확한 목적에 맞추면 된다. 그런 다음 [쓰여진 단어]는 수치 등급에 대한 [맥락을 제공하고 정당화하는 데 사용]될 것이다. 대상 청중은 프로그램이며, 위임 등급 양식은 오로지 평가를 위한 것이 된다. 이 접근 방식에서, 우리는 그 만남을 form이 아닌 발전적 기회로 활용할 것이다. 다시 말해, 만남의 모든 측면이 평가의 초점을 제공할 필요는 없으며, 전공의와 관리자가 풍부하고 기록되지 않은 학습 대화를 할 경우 [구어]를 발전적으로 사용할 수 있다. 전공의가 원한다면, 그들은 [자신을 위한 메모]를 쓸 수 있는데, 그것은 그들이 개인적으로 간직할 수 있는 [대화의 기념품]이고, 나중에 자기 성찰과 발전을 자극하기 위해 끌어다 쓸 수 있다. 이 접근법은 학습자가 평가 맥락에서 '무대적 연기staged performances'에 참여하는 문제를 회피할 수 없으며, [직접 말로 논의된 내용]과 [양식에 글로 기록된 내용] 사이에 단절이 있을 경우 발생할 수 있는 잠재적 문제를 해결하지는 못하지만, [학습 대화]를 위한 공간을 열 수 있다. 49

We could stop dual purposing our forms and instead align the numbers and the words around the explicit purpose of assessment. Written words would then be used to justify and provide context for the numerical rating. The intended audience would be the program, and the entrustment rating forms would be solely for assessment. In this approach, we would harness the encounter as the developmental opportunity but not the form. In other words, not every aspect of the encounter would have to serve an assessment focus and, if the resident and supervisor engaged in a rich, unrecorded learning conversation, the spoken words could be used developmentally. If the resident wished, they could write notes for themselves—souvenirs of the conversation they could keep privately and draw on later to stimulate self-reflection and development. This approach would not get around the issue of learners engaging in staged performances during assessment contexts, 47,48 nor would it address the potential problems that might ensue if there is a disconnect between what is discussed in person and what is recorded on a form, but it would open a space for learning conversations. 49

[2] 이 [단일 목적 접근 방식] 내의 대안으로, 우리는 [위임 등급에 대해 별도의 평가자]를 채용하는 것을 고려할 수 있으며, 따라서 평가 조우(평가자가 수행)와 피드백 조우(감독자가 수행)를 명확히 구분할 수 있다. 이러한 분리를 통해 감독관들은 주민들의 진정한 코치가 될 수 있고, 전공의 개발을 촉진하기 위한 직접적인 관찰과 피드백 대화에 참여할 수 있다. 51 이 두 가지 접근 방식 모두 문화 변화의 필요성을 인식하고 있다. 의미 있는 학습 대화를 지원하려면 평가 및 피드백에서 [교사를 교육]하거나, [학습자가 성장 마인드를 채택하도록 장려하는 것] 이상이 필요합니다. 또한 효과적인 학습 대화가 이루어질 수 있는 장을 마련하는 [조직적 전략]을 의도적으로 채택할 것을 요구한다. 52
As an alternative within this single-purpose approach, we could consider employing separate assessors for the entrustment ratings, thus making a clear distinction between assessment encounters (conducted by assessors) and feedback encounters (conducted by supervisors). 16,50 This separation could free up supervisors to truly be coaches to the residents, engaged in direct observation and feedback conversations to foster resident development. 51 Both of these approaches recognize the need for culture change. Supporting meaningful learning conversations requires more than training teachers in assessment and feedback or encouraging learners to adopt a growth mindset. It also requires the deliberate adoption of organizational strategies that set the stage for effective learning conversations to occur. 52

[3] 이것은 우리가 숫자와 단어의 개별적인 강점을 이용하여, 명백하게 이중적인 목적을 달성하고 "both-and" 접근방식을 구현하는 세 번째 가능한 행동방침으로 우리를 이끈다. 숫자는 평가에 초점을 맞추지만, 단어는 평가와 피드백에 모두 사용되며, 프로그램은 단어의 목적과 의도된 사용을 명확하게 명시해야 한다. 논평이 제공할 수 있는 이중 목적을 최적화하기 위해서는 감독관이 작성하는 [일선 평가 양식에서 두 가지가 구별되어야] 한다. 도리와 동료들은 [코멘트 상자를 끝이 아니라 시작부에 두는 것]과 같은 평가 보고서에 대한 간단한 "넛지 개입"이 교사들이 제공하는 댓글의 세부 수준과 실행 가능성을 높일 수 있다는 것을 보여주었다. 이 작업을 바탕으로 목적과 의도된 청중을 다루는 위임 등급 양식에 대한 프롬프트를 포함할 수 있습니다. [평가 의견(관측을 설명하거나 등급을 정당화하기 위한 의견)] 또는 [피드백 의견(계속된 개발을 코칭하거나 구체화하기 위한 의견)]을 도출하기 위해 서로 별개의 프롬프트를 사용할 수 있다.

  • 전자에 대한 대상 청중은 역량 위원회이지만, 이러한 의견은 교육생에게 보일 것입니다.
  • 후자의 코멘트는 교육생을 위한 것이며, 우리는 이러한 코멘트가 역량 위원회에게는 숨겨져야 한다고 주장한다. 코칭은 학습자가 취약성에 대해 안전할 때 가장 잘 작동하며, 학습자에게 자신의 눈을 위한 데이터만 제공하면 그러한 안전감이 강화될 수 있습니다.

Which brings us to a third possible course of action, in which we leverage the separate strengths of numbers and words to explicitly dual purpose and embody a “both-and” approach. Numbers would remain focused on assessment, but words would be used both for assessment and for feedback, with programs having to clearly specify the purpose of the words and their intended use. To optimize the dual purposes that comments can serve, both would have to be distinct on the frontline assessment forms that supervisors complete. Dory and colleagues have shown that simple “nudge interventions” on assessment reports, such as putting the comment box first instead of last, can increase the level of detail and actionability of the comments that teachers provide. Building on that work, we could include prompts on entrustment rating forms that address purpose and intended audience. Different prompts could be used to elicit either assessment comments (those intended to explain observations or justify ratings) or feedback comments (those intended to coach or shape continued development).

  • The intended audience for the former is the competency committee, but these comments would be visible to the trainee.
  • The latter comments would be intended for the trainee, and we argue these could, and likely should, be hidden from the competency committee. Coaching works best when learners feel safe to be vulnerable, 53,54 and providing them with data for their eyes only may cement that sense of safety.

만약 감독관들이 [그들의 말이 오로지 학습자 개발을 지원하기 위한 것이라는 확신]을 가질 수 있다면, 그들은 덜 구속되고 따라서 더 정직하고 비판적인 의견을 쓸 수 있을 것이다. 그들의 코멘트는 학습자들이 성과에 대한 더 높은 관심을 갖는 결정을 내리는 데 사용될 것이라는 우려를 갖지 않고 개발의 다음 단계를 더 의미 있게 알려줄 수 있다. 이러한 명확한 목적을 달성하려면 시스템 변화가 필요합니다. 단순하게 교사나 학습자에게 특정 의견 집합을 평가로서 또는 피드백으로서 취급해야 한다고 말하는 것은 충분하지 않을 것이다. 증거에 따르면, 이런 것은 상호작용의 인식된 이해 관계나 생성된 평가 및 의견 모두에 큰 영향을 미치지 않을 것임을 시사하기 때문이다. 이러한 이중 목적을 달성한다는 것은 [두 가지 의견 세트가 서로 완벽하게 정렬되지 않을 수 있다는 것]을 의미한다. 하지만 (이 두 가지의) 정렬이 목표가 아닙니다.

  • [의사 결정자]는 신뢰할 수 있고 방어적인 결정을 내릴 수 있도록 학습자의 성과를 이해할 수 있는 단어가 필요합니다.
  • [학습자]는 자신의 발달 궤적에 맞게 조정되고 지속적인 개선을 지원하는 단어가 필요합니다.

각각에 대해 별도의 단어를 사용한다면, 두 가지 목적을 모두 잘 수행할 수 있습니다.
If supervisors can feel confident that their words are intended solely to support learner development, they might feel less constrained and therefore write more honest, critical comments. Their comments, in turn, might more meaningfully inform next steps in development, without learners harboring concerns that they will be used to render a higher-stakes decision about performance. Achieving this clarity of purpose would require system change. It would not be sufficient to simply tell teachers or learners that a particular set of comments should be treated as assessment or as feedback, as evidence suggests this would not have much effect on either the perceived stakes of the interaction or on the ratings and comments produced. 40,44 Achieving these dual purposes means that the 2 sets of comments may not be perfectly aligned with one another. But alignment isn’t the goal.

  • Decision makers need words that allow them to understand learner performance so they can make trustworthy and defensible decisions.
  • Learners need words that are tailored to their developmental trajectory and that support continued improvement.

Both purposes could be well served, with separate words for each.

프로그램적 평가와 문서화의 횡포
Programmatic Assessment and the Tyranny of Documentation

마지막으로 해결해야 할 문제는 각 학습자를 위해 생성되는 엄청난 양의 코멘트를 어떻게 해야 하는가이다. 프로그래밍 방식의 평가 프레임워크 내에서 시간이 지남에 따라 "대규모 정보"가 수집되며, 다양한 데이터 소스에서 의미를 만드는 시스템이 필요하다. 역량 위원회는 숫자 데이터만으로 결정을 내리기가 어려울 수 있지만 전공의 한 명당 수십 개 또는 수백 개의 의견을 읽고 해석하는 데 어려움을 겪을 수 있다. 이 문제에 대응하여, 일부 저자들은 자연어 처리와 같은 방법을 통해 단어를 숫자로 줄이는 방법을 탐구했다. 만약 우리가 프로그램에서 찾는 것이 [더 많은 주의를 필요로 하는 학습자들을 식별하는 "신호"나 "코드"]라면, 숫자가 효율적으로 요약될 수 있고 후속 검토에 집중할 수 있는 "1차 통과 필터" 역할을 할 수 있기 때문에, 이 목적에 대한 숫자 점수의 매력은 명백하다. 이 논리에 따라, 몇몇 연구자들은 [단어]에 대해서도, 컴퓨터 알고리즘을 사용하여 어려운 학습자들을 선별하거나 예측하면서 같은 일을 하려고 시도했다. 한 연구에서 키워드 알고리듬은 제안된 숫자 점수보다 어려움을 겪는 전공의를 더 많이 식별했지만, 이 접근법의 전반적인 실현 가능성과 유용성은 확립되지 않았다. 게다가 단어를 숫자로 줄이면 문맥과 설명 측면에서 단어가 제공할 수 있는 모든 잠재력을 잃게 된다. 우리는 단어를 있는 그대로 두고, 숫자를 사용하여 데이터에서 신호를 검색하고, 이러한 신호에 수반되는 단어를 읽어 그것들이 설명하는 평가 조우에 대한 컨텍스트를 제공하는 것을 강력히 지지한다.

A final problem to grapple with is what to do with the sheer volume of comments that are produced for each learner. Within a programmatic assessment framework, “massive information” is gathered over time 55 and necessitates a system to make meaning from a variety of data sources. Competency committees may find it difficult to make decisions based on numeric data alone, yet may struggle to read and interpret dozens or hundreds of comments per resident. In response to this problem, some authors have explored reducing words to numbers, through methods such as natural-language processing. If what one is looking for is a “signal” or “code” that identifies to the program those learners who need more attention, then the appeal of numeric scores for this purpose is obvious, as numbers can be summarized efficiently and can act as a “first-pass filter” that can help focus subsequent review. 34 Following this logic, several researchers have attempted to do the same with words, using computer algorithms to screen for or predict learners in difficulty. In one study, keyword algorithms identified more residents in difficulty than the numeric scores suggested, 56 but the overall feasibility and utility of this approach have not been established. Furthermore, reducing words to numbers loses all the potential of what the words might offer in terms of context and description. We strongly advocate to let words be as they are, to use the numbers to search for signals in the data, and to read the words that accompany those signals to provide context for the assessment encounters they describe.

역설적이게도, 프로그램 평가에서 해결하려고 했던 문제(충분한 평가 데이터가 아님)는 이제 새로운 문제를 만들어냈다: 
바로 [문서화의 횡포]이다. [피드백 순간]을 기록해야 하는 [평가 순간]으로 바꾸기 위해 학습자와의 모든 상호 작용을 요구한다면, 우리는 지도자와 전공의 사이의 발전적인 관계를 해친다. 평가 우위적인 컨텍스트는 학습을 위한 안전한 공간을 제거하고 평가 목적을 위해 전공의를 실제적이지 않은 공연적 수행(staged performance)으로 가이드할 위험이 있으며, 이는 의미 있는 피드백에 대한 가치가 낮다. 아마도 "더 많은 데이터가 더 낫다"는 가정에 의문을 제기하고, 더 적은 데이터(그러나 올바른 종류의 데이터)가 우리의 목적에 똑같이 잘 부합할 수 있다는 점을 고려해야 할 것입니다.

Paradoxically, the problem that programmatic assessment was trying to solve (not enough assessment data) has now created a new problem: the tyranny of documentation. If we require every interaction with a learner to turn a feedback moment into an assessment moment that must be recorded, we undermine the developmental relationship between supervisor and resident. An assessment-dominant context removes the safe spaces for learning and risks guiding residents toward inauthentic staged performances for assessment purposes, which are of low value for meaningful feedback. 47 Perhaps we should question the assumption that “more is better” and consider that less data—but the right kind of data—may serve our purposes equally well.

결론 Conclusion


공동체로서, 우리는 숫자와 단어가 모두 포함된 위임 등급 양식을 구현했는데, 각각의 목적과 용도에 대한 관심이 부족할 수 있습니다. [단어]가 [피드백을 위한 것]인지 [평가를 위한 것]인지에 대한 모호성 때문에, 고부담적 목적이 지배적인 경향이 있었기에, 단어를 평가로 처리하는 것이 디폴트였으며, 교육생은 진행 중인 개발에서 다음 단계를 수행하도록 의미 있게 도울 수 있는 기회를 확실히 잃어버렸다. [목적의 명확성]을 달성하는 쪽으로 우리의 에너지를 옮기고, 다른 접근 방식(단일 목적, 이중 목적)을 실험하여 평가와 피드백을 단어를 통해 달성할 수 있는지 여부와 방법을 이해하는 것이 앞으로 나아가는 데 도움이 될 수 있다. 위임 평정 양식은 프로그램 평가와 연계되어 있으며, [발달적 목적]을 장려하기 위해 프로그램 평가를 구현할 수 있는 방법을 전경화해야 한다. 그 중에서 가장 중요한 것은, 학습 대화가 일어날 수 있는 맥락으로서 학습자와 감독자 사이의 종적이고 신뢰적인 관계에 초점을 맞추는 것일 수 있다.
단어들은 [정교화하고, 문맥화하며, 교육instruct할 수 있는 엄청난 잠재력]을 가지고 있다. 이 잠재력을 실현하기 위해서, 우리는 그들의 의도된 용도를 분명히 해야 하고, 우리가 단어들을 [언제, 어떻게 모으는지]를 [왜 모으는지]와 일치시키기 위해 노력해야 한다. 우리는 교육자들이 단순히 피드백을 위해 일부 교육적 만남을 보존하고 모든 단어가 데이터가 될 필요는 없다는 점을 고려하도록 장려한다.

As a community, we have implemented entrustment rating forms with both numbers and words, with perhaps insufficient attention to the purpose and intended use of each. Because of the ambiguity as to whether the words are for feedback or assessment, the higher-stakes purpose tends to dominate and the default has been to treat words as assessment, which surely represents a lost opportunity for meaningfully helping trainees take the next steps in their ongoing development. Shifting our energies toward achieving clarity of purpose, and experimenting with different approaches (single purpose, dual purpose) to understand whether and how assessment and feedback may be achieved through words, may be a helpful way forward. Entrustment rating forms are linked with programmatic assessment, and we need to foreground the ways in which programmatic assessment can be implemented to encourage developmental purposes—of which the most important may be focusing on longitudinal, trusting relationships between learners and supervisors as the context in which learning conversations can occur. 39,57 Words have enormous potential to elaborate, to contextualize, and to instruct. To realize this potential, we must be crystal clear about their intended use and work toward aligning how and when we collect words with why. We encourage educators to preserve some educational encounters purely for feedback and to consider that not all words need to become data.

 


Acad Med. 2021 Jul 1;96(7S):S81-S86. doi: 10.1097/ACM.0000000000004089.

Numbers Encapsulate, Words Elaborate: Toward the Best Use of Comments for Assessment and Feedback on Entrustment Ratings

Affiliations collapse

Affiliations

1S. Ginsburg is professor of medicine, Department of Medicine, Sinai Health System and Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University of Toronto, Toronto, Ontario, Canada, and Canada Research Chair in Health Professions Education; ORCID: http://orcid.org/0000-0002-4595-6650.

2C.J. Watling is professor and director, Centre for Education Research and Innovation, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada; ORCID: https://orcid.org/0000-0001-9686-795X.

3D.J. Schumacher is associate professor of pediatrics, Cincinnati Children's Hospital Medical Center and University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0001-5507-8452.

4A. Gingerich is assistant professor, Northern Medical Program, University of Northern British Columbia, Prince George, British Columbia, Canada; ORCID: https://orcid.org/0000-0001-5765-3975.

5R. Hatala is professor, Department of Medicine, and director, Clinical Educator Fellowship, Center for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: https://orcid.org/0000-0003-0521-2590.

PMID: 34183607

DOI: 10.1097/ACM.0000000000004089

Abstract

The adoption of entrustment ratings in medical education is based on a seemingly simple premise: to align workplace-based supervision with resident assessment. Yet it has been difficult to operationalize this concept. Entrustment rating forms combine numeric scales with comments and are embedded in a programmatic assessment framework, which encourages the collection of a large quantity of data. The implicit assumption that more is better has led to an untamable volume of data that competency committees must grapple with. In this article, the authors explore the roles of numbers and words on entrustment rating forms, focusing on the intended and optimal use(s) of each, with a focus on the words. They also unpack the problematic issue of dual-purposing words for both assessment and feedback. Words have enormous potential to elaborate, to contextualize, and to instruct; to realize this potential, educators must be crystal clear about their use. The authors set forth a number of possible ways to reconcile these tensions by more explicitly aligning words to purpose. For example, educators could focus written comments solely on assessment; create assessment encounters distinct from feedback encounters; or use different words collected from the same encounter to serve distinct feedback and assessment purposes. Finally, the authors address the tyranny of documentation created by programmatic assessment and urge caution in yielding to the temptation to reduce words to numbers to make them manageable. Instead, they encourage educators to preserve some educational encounters purely for feedback, and to consider that not all words need to become data.

평가의 공정성 수호하기: 어떻게 교수자가 공동-실천하는가 (Med Educ, 2022)
Safeguarding fairness in assessments—How teachers develop joint practices
Linda Barman1 | Cormac McGrath2 | Staffan Josephsson3 | Charlotte Silén4 | Klara Bolander Laksov2,4

 

1 소개
1 INTRODUCTION

보건 전문가 교육에서 [학생 학습에 대한 평가]는 중심적이지만 어려운 과제이다. 한 가지 과제는 미리 정의된 표준의 적용을 통해 투명성을 달성하는 동시에 교사의 전문적인 판단을 인정하는 것이다. 지난 수십 년 동안 성과 기반 및 역량 기반 커리큘럼 개혁은 [투명성]과 [공공 책무]의 강화를 추진해 왔다. 그러한 투명성을 달성하기 위한 한 가지 방법은 평가 기준을 명시하는 것이다. 그러나 역량, 평가 타당성 및 신뢰성을 포착하는 의미 있는 기준의 개발이 논의된다. 명시적 채점 기준은 학생들이 학습할 것으로 기대되는 내용의 투명성을 높이는 것으로 알려져 있지만, ['일부' 역량만을 선호함]으로써 [역량의 통합적 평가]를 위험에 빠뜨릴 수 있다. 
The assessment of student learning in health professions' education is a central, yet challenging task.1, 2 One challenge involves achieving transparency through the application of pre-defined standards, while also acknowledging teachers' professional judgements. For the past decades, outcome-based and competency-based curriculum reforms have pushed for enhanced transparency and public accountability.3-5 One way to achieve such transparency has been to make the assessment standards explicit.3, 5 However, the development of meaningful criteria capturing competency, assessment validity and reliability are debated.5-9 Explicit grading criteria are known to increase the transparency of what students are expected to learn but may endanger the assessment of integrated competency in favour of ‘pieces of’ competencies.10-12 

다양한 평가 방법의 결과와 평가자 등급의 변동 이유(판단 및 피드백 제공의 숙련도 포함)에 대해서는 많이 알려져 있지만, [임상 교사가 어떤 식으로 평가 관행을 개발하고 평가 표준을 이해하는지]에 대해서는 거의 알려져 있지 않다. Gordon과 Cleland16은 최근 문맥상 변화 관행을 이해하기 위한 비선형 접근법을 요구했다. 이 서술적 연구는 이러한 비선형 접근법을 사용하여 보건직 교사들이 시간에 따라 평가 관행에 대해 어떻게 가고, 명확한 평가 기준을 강조하는 정책과 관련하여 경험적 기반 발견을 기여함으로써 변화 관행에 대한 복잡성을 풀어나간다. 본 연구의 목적은 학생들의 임상 역량을 평가하기 위한 공유 기준이 개발 및 구현될 때 교사의 평가 관행이 어떻게 바뀔 수 있는지를 이해하는 것이다.

While much is known concerning the outcomes of different assessment methods,13 and the reasons for variation in assessor ratings including proficiency in making judgements and providing feedback,14, 15 little is known about how clinically oriented teachers develop assessment practices and make sense of assessment standards. Gordon and Cleland16 recently called for non-linear approaches to understand change practices in context. This narrative study uses such a non-linear approach to unravel the complexity of change practices by contributing empirical-based findings concerning how health professions teachers go about their assessment practice, over time, and in relation to policies emphasising clear assessment criteria. The aim of the present study is to understand how teachers' assessment practice may change when shared criteria for assessing students' clinical competency are developed and implemented.

 

1.1 평가 및 기준에 대한 교사의 접근 방식
1.1 Teachers' approaches to assessment and standards

평가자마다 평정이 다른 이유에 대해 여러 가지 설명이 있다. 예를 들어, 학생 성취도는 [개별 특성의 사회적 분류]에 기초하여 판단된다. Kogan 등은 교수진의 임상 기술 평가 사이에 변화를 초래하는 몇 가지 요인을 보고한다. 그들은 교육 환경, 독특한 임상적 만남, 제도적 문화와 같은 [평가 상황에서 맥락적 요인의 영향]을 강조한다. 17 [교사의 인식론적 관점]은 또한 그들의 평가 관행에 영향을 미치는 것으로 알려져 있다. 이러한 기본적인 가정은 '생명을 가지게 되며come to life' 의료 전문가들이 의료행위를 하는 [사회 및 문화적 맥락]의 통합된 부분이다.20 [제정된 견해enacted view]는 평가자의 판단 사이의 차이를 설명할 수 있으며, 또한 연구에 따르면 교사들은 평가의 기능을 다른 방식으로 고려할 수 있다. De Jongge 등은 작업 기반 성과 평가의 다양한 관점에 관한 문헌의 주요 주제를 확인했습니다.

  • (1) 학습에 대한 평가 대 학습에 대한 평가, 
  • (2) 역량의 전체론적 개념화 대 분석적 개념화 
  • (3) 심리측정학 대 사회구성주의 접근법 

There are a number of explanations as to why assessors' ratings differ, for example that student performance is judged based on social categorisations of individual charachteristics.14 Kogan et al.17 report several factors leading to variation between faculty members' assessments of clinical skills. They emphasise the influence of contextual factors in the assessment situation, such as the educational setting, the unique clinical encounter and the institutional culture.17 Teachers' epistemological views are also known to influence their assessment practices.41819 Such fundamental assumptions ‘come to life’ and are an integrated part of the social and cultural context in which health professionals practice.20 Enacted views may explain the variation between assessors' judgements, and also, research suggest that teachers regard the function of assessment in different ways.151821 de Jonge et al.21 identified key themes in the literature regarding different perspectives of work-based performance assessments:

  • (1) assessment for learning versus assessment of learning,
  • (2) holistic versus analytical conceptualisations of competence and
  • (3) psychometric versus social-constructivist approaches.

Hodges22는 [심리측정학 담론]이 평가에 관한 [의학 교육 연구]뿐만 아니라 [교육자]들 사이에서 사고와 실천의 한 방식이었던 방법을 상세히 설명한다(예를 들어 숫자를 이용한 피드백을 제공하는 것이 여기에 해당한다). 단어보다 [숫자를 사용]하는 것은 철학적 가정을 반영하고 시간을 절약할 수 있지만, 연구원들은 이런 방식을 주의할 것을 촉구하고, [평가와 피드백 방법의 조합]의 가치를 강조하며, 다른 목적에 도움이 될 수 있다고 제안한다.23 유사한 논거를 사용하여, 프로그래밍 평가의 옹호자들은 학생들의 능력을 다양한 방법으로 포착하는 더 긴 기간에 걸친 다양한 형성적 및 종합적 평가 방법을 제안한다.1, 24

Hodges22 details how the psychometric discourse has not only dominated the medical education research regarding assessments but also how it has been a way of thinking and practising among educators, for example, by providing feedback using numbers. The use of numbers rather than words reflects philosophical assumptions and may save time, but researchers urge caution and suggest a combination of rating and feedback methods could be valuable and serve different purposes.23 Using a similar rationale, advocates of programmatic assessment suggest a variety of formative and summative assessment methods over longer periods of time that capture students' capabilities in various ways.1, 24

많은 연구가 설명적 요인과 성공적인 평가 방법의 확인에 관한 것이지만, 시간이 지남에 따라 교사들의 시각이 어떻게 변할 수 있는지에 대한 연구는 거의 없다. 본 논문에서, 우리는 교사의 관행 개발을 다루고, 학생들의 평가 표준, 자유방임주의 접근법, 명시적 접근법, 사회-건설주의 접근법 및 실천 공동체 접근법에 대한 교사의 다양한 접근 방식을 개략적으로 설명하는 O'Donovan 등의 19 프레임워크를 적용한다.19

  • 평가에 대한 [자유방임적 접근법]은 학생들이 기준이 어떻게 정해지고 질이 어떻게 평가되는지를 점차적으로 '알게' 된다는 것을 의미한다. 자유방임주의로 접근하는 교사들은 우연한 방식으로 비공식적으로 전달되는 암묵적인 기준에 따라 성과를 판단한다.
  • [명시적 접근법]은 기준을 명시적으로 그러나 수동적으로 명확히 설명하는 평가 기준에 의해 특징지어진다. 이 접근법은 교사들이 소위 명시적인 기준에 너무 많이 의존하게 만든다는 비판을 받아왔다.
  • [사회 구성주의 접근법]은 평가 관행과 관련하여 공동 참여를 인정한다. 학생들은 적극적으로 참여하며, 다양한 활동을 통해 평가 기준에 익숙해져 실제 의미에 대한 이해를 형성합니다.6
  • 네 번째 접근법은 벵거의 26가지 [실천 공동체 이론]에 기초한다. 교사와 학생이 평가 실천에 상호 참여하는 것이 중요하다는 점을 인정하며, 이를 통해 학습 공동체 내의 명시적 기준과 암묵적 지식이 논의되고 공유되어 상호 이해를 형성한다.

While much research concern the identification of explanatory factors7, 14, 17 and successful methods for assessments,13, 25 little is devoted to how teachers' views may change over time. In this paper, we address teachers' development of practices and apply O'Donovan et al.'s19 framework, which outlines teachers' different approaches to developing students' understanding of assessment standards, the laisse-faire approach, the explicit approach, the social-constructivist approach and the community of practice approach.19 

  • Practising the laisse-faire approach to assessment means students gradually come to ‘know’ how standards are set and how quality is assessed. Teachers with a laissez-faire approach judge performances according to tacit standards that are informally communicated in serendipitous ways.
  • The explicit approach is characterised by assessment criteria that articulate standards explicitly but passively. This approach has been criticised for making teachers rely too much on so-called explicit criteria.
  • The social-constructivist approach acknowledges joint participation with respect to evaluative practice. Students are actively engaged and, through various activities, become familiar with assessment criteria to create an understanding of what they mean in practice.6 
  • The fourth approach builds on Wenger's26 theory of community of practice. It acknowledges the importance of teachers' and students' mutual engagement in the assessment practice, whereby explicit standards and tacit knowledge within the learning community are discussed and shared to form mutual understanding.

2 방법
2 METHODS

2.1 서술적 연구 접근법
2.1 A narrative research approach

이 연구는 인간이 경험을 서술형으로 구성함으로써 어떻게 그들의 경험에 의미를 부여하는가에 대한 서술 이론에 기초하고 있다. [서사적 감각 형성]은 [사람들이 행동과 경험을 설명하기 위해 과거, 현재, 미래의 사건들을 서술로 연결시키는 것]을 의미한다. 브루너는 세상을 이해하는 [두 가지 보완적인 방법]이 있다고 주장한다. [논리-과학적] 그리고 [서사적]. 

  • [과학]은 일반적인 원인을 찾기 위해 논리를 사용하는 첫 번째 것과 경험적 탐구를 통해 검증 가능한 진리를 검증하는 것에 의해 뒷받침된다. 그러나
  • [서사적 감각 형성]은 인간이 일상 생활에서 다른 사건들을 연결함으로써, [자신과 타인의 행동을 어떻게 설명하는지]를 다룬다. 이러한 [스토리가 있는 연결]이 진화하면 모순과 여러 의미를 포함할 수 있습니다. 

This study is based on narrative theory about how humans bring meaning to their experiences by structuring them as narratives.27-29 Narrative sense-making means that people connect past, present and future events into narratives to explain actions and experiences.3031 Bruner27 argues that there are two complementary ways to make sense of the world: the logico-scientific and the narrative.

  • Science is underpinned by the first, in which logic is used to find general causes, and through empirical explorations test verifiable truths.
  • Narrative sense-making, however, deals with how humans explain the actions of themselves and others by making connections between different events in their everyday lives.27 When these storied connections evolve, they may contain contradictions and multiple meanings.28 

이 연구의 근거는 [실천의 발전]은 모순으로 가득 차 있고, 교육 실천을 개선하기 위해서는 [교사들이 변화와 관련된 경험을 어떻게 이해하는지] 더 잘 이해하는 것이 필수적이라는 것이다. [서사의 강점]은 [인간 생활의 지저분하고 모순된 측면]을 조명하는 생동감에 있다. 교사들이 학문과 임상 업무의 다양성에 관여할 때, 그들의 의도는 정적이지 않으며, '능력 개발'의 결과물도 아니다. 오히려 다른 실천방법이 시험되고 반영됨에 따라 의도는 지속적으로 변화한다.

The rationale of this study is that development of practice is filled with contradictions and that a better understanding of how teachers make sense of experiences related to change is essential to improve educational practice. The strength of narratives is their lifelikeness, which illuminates the messy and contradictory aspects of human life.27 When teachers engage in the diversity of academic and clinical work, their intentions are not static or the result of ‘a competence development’. Rather, intentions change continuously as different ways of practising are tested and reflected upon.

2.2 연구 및 샘플링의 맥락
2.2 Context of study and sampling

이번 연구는 스웨덴 고등교육 내 명확한 등급기준 등 투명성을 강조하는 국가개혁과 연계해 진행됐다. 스웨덴 대학은 채점 기준을 어떻게 적용할지를 자율적으로 결정할 수 있기 때문에 대학, 과정, 심지어 학과 내에서도 차이가 있다. 스웨덴의 학습 프로그램은 [과정 기반 시스템]을 중심으로 구성되며, 각 과정이 끝난 후 학생들의 성과를 평가하고 채점하며, 일반적으로 5주 또는 10주 동안 지속된다. 스웨덴에서, [과정 리더]는 수업 요강을 개발하고, 평가와 채점 기준을 결정하며, 보통 시험관의 공식적인 역할을 맡지만, 다른 교사들은 학생들의 성과에 대한 정보를 제공할 수 있다. 의학 및 보건직 교육에서, 각 강의 요강은 커리큘럼과 연계된 학습 결과를 명시해야 하며, 따라서 의도된 대학원 역량으로 연결되어야 한다.4 세부 수준과 학습 성과가 표현되는 방법은 과정마다 다르지만, 일반적으로 채점 기준은 학생 성과에 대한 요구사항을 명시한다.
This study was conducted in conjunction with national reforms stressing transparency such as clear grading criteria within higher education in Sweden. Universities in Sweden have the autonomy to decide how grading criteria are applied, and therefore, there is variation between universities, courses and even within departments. Study programmes in Sweden are organised around a course-based system, where students' performances are assessed and graded after each course, which generally lasts for 5 or 10 weeks. In Sweden, course leaders are mandated to develop the course syllabus, decide assessments and grading criteria and usually have the formal role of examiner, but other teachers can provide input on student performance. In medical and health professions education, each syllabus should specify learning outcomes that are linked to the curriculum and thus to the intended graduate competency.4 The level of detail and the way that learning outcomes are expressed varies between courses but, in general, grading criteria specify the requirements on student performance.

우리의 심층 서술적 연구 접근법에 따라, 우리는 이론에 기초한 표본추출을 사용하여 하나의 [교육적 설정]을 선택했다. 17 우리는 [커리큘럼 개혁에 대한 이데올로기적 접근]에 의해 설명되는 것과 유사한 학생 중심의 학습 관점에 따라, 광범위한 해석에 기초하여 정책을 번역하는 주요 커리큘럼 변경을 시행한 9명의 교사를 모집했다.32 모든 9명의 교사들, 남자, 여자, 모두 병원 현장에서 일했고 스웨덴 대학에 의해 제공되는 하나의 건강 전문 교육에서 주요 과정의 계획, 전달 및 평가(형성 및 종합 평가 포함)를 담당했다. 지난 10년 동안, 학습 프로그램의 대부분의 과정에 대한 책임은 이 교사들 사이에서 돌아가며, 그들은 각각 여러 과목의 과정 지도자와 시험관이었다.
In accordance with our in-depth narrative research approach, one educational setting was chosen using theory-based sampling.17 We recruited nine teachers who had implemented major curriculum changes where they translated policy based on a broad interpretation in line with a student-centred view of learning, similar to what is described by the theoretical construct ideological approach to curriculum reform.32 All nine teachers, men and women, worked at a hospital site and were responsible for the planning, delivery and evaluation (including formative and summative assessments) of the main courses in one health professions education offered by a Swedish university. In the last 10 years, responsibility for the majority of courses in the study programme had rotated between these teachers, who each had been course leaders and examiners for several courses.

이 연구는 교사들에 의해 시작된 [평가 관행을 개선하기 위한 개입]과 함께 수행되었습니다. 교사들은 서로 다른 수준의 공부에서 세 명의 학생들을 모집했고 그들이 각각 다른 환자들을 검사하면서 그들을 비디오로 촬영했다. 검사에는 이력서 작성, 신체검사, 기술기기 취급, 진단 전 소견 해석, 치료 권고 등이 포함됐다. 검사는 약 1시간이 소요될 것으로 예상되었으며 학생들의 최종 임상 기술 검사와 유사한 임상 훈련 환경에서 실제 환자를 대상으로 수행되었습니다. 그 후 교사들은 5개월 간격으로 세 차례에 걸쳐 만났다. 처음 두 번의 회의 동안 모든 교사가 비디오를 시청하고 개별적으로 평가를 수행한 후 평가 결과와 기준 해석에 대해 공동으로 논의하였다. 두 회의 모두 다단계 순위와 전문적 행동에 대한 명확화 등 기준을 개선했다. 두 번째 기준 토론 후 5개월 후, 교사들은 기준 템플릿을 완성하기 위해 다시 만났다. 미팅 사이에 그들은 개정된 기준을 실무에 적용했다.

This study was conducted in conjunction to an intervention initiated by the teachers to enhance their assessment practice. The teachers recruited three students from different levels of study and videotaped them as they each examined different patients. The examination included history-taking, physical examination, handling technical devices, interpretation of findings before diagnosis and recommendations for treatment. The examination was expected to take approximately 1 hour and was performed on authentic patients in a clinical training setting that resembled the students' final clinical skills exam. The teachers then met on three occasions at 5-month intervals. During the first two meetings, all teachers watched the videos and carried out the assessments individually before jointly discussing their assessment outcomes and interpretations of the criteria. Both meetings resulted in refinements of the criteria, such as multi-level rankings and clarifications on professional behaviour. Five months after their second criteria discussion, the teachers met again to finalise the criteria template. In between meetings, they applied the revised criteria in their practice.

2.3 자료 및 분석
2.3 Data and analysis

이 데이터는 교사들이 평가 관행을 개선하기 위해 1년 동안 개입하는 동안, [여러 가지 방법]을 조합하여 생성되었습니다. 녹음되고 녹음된 관찰은 9명의 교사들의 네 번의 회의와 그 회의들 사이의 비공식적인 대화 동안 이루어졌다. 회의 후 그들의 개별 서면 성찰도 수집되었다. 첫 번째 저자가 만든 필드 노트에는 얼굴 표정, 몸짓, 물리적인 방, 유물, 분위기 등이 담겼다. 모든 메모는 관측 당일이나 다음 날 작성되었다. 연말에는 학과에서 가장 오래 근무한 교사(>10년)와 채점기준 개정 조정을 맡은 교사 중 3명을 선발해 단체면접을 진행했다. 이 탐색적 인터뷰(2.5시간)는 교사들이 과거의 경험을 회상하고 그 의미를 발전시킬 수 있는 기회를 제공했고, 그에 따라 풍부한 데이터가 생성되었다. 33 또한 교사 그룹의 일원이었던 프로그램 책임자와 함께 두 번의 추가 인터뷰가 이루어졌다.
The data were generated through a combination of methods throughout the teachers' 1-year intervention to enhance their assessment practice. Tape-recorded and transcribed observations were made during four meetings of the nine teachers and during informal talks between those meetings. Their individual written reflections following the meetings were also collected. The field notes generated by the first author included facial expressions, body language, the physical room and artefacts and the atmosphere.33, 34 The notes were all written out either the same day or the day after the observation. At the end of the year, three of the teachers who had worked the longest at the department (>10 years), and the teacher responsible for coordinating the revision of the grading criteria, were chosen for a group interview. This exploratory interview (2.5 hours) provided an opportunity for the teachers to recall past experiences and evolve the meaning of these, thereby rich data was generated.33 Two additional interviews were held with the Programme Director, who was also part of the teacher group (e.g. course lead and examiner).


저자들 중 세 명이 공동으로 [중요한 사건]을 중심으로 서술 분석을 수행했다. 즉, 교사들이 평가의 공동 개발에 있어서 중요한 것으로 인식되는 사건들, 즉, 기회나 변화에 대한 압력을 조성한다. 표 1을 참조하는 이 중복된 사건들은 10년 전으로 거슬러 올라가는 상황에 대한 선생님들의 이야기를 바탕으로 했다. 분석 중에, 텍스트 자료로 번역된 모든 데이터는 함께 모이게 되어, 교사들의 '우세한 담론'이 그들의 일상적인 행위enactment(생각과 행동)에서 어떻게 표현되었고, 이러한 담론이 시간에 따라 어떻게 발전했는지에 대한 서술적 분석이 가능하게 되었다. 34 

Three of the authors jointly conducted a narrative analysis centred on significant events,28, 29, 34 i.e. events the teachers perceived as significant28 for their joint development of assessments, either by creating opportunities or pressure to change. These overlapping events, see Table 1, were based on stories shared by the teachers about situations that went as far back as 10 years. During analysis, all data, transcribed as text materials, were pooled together, enabling narrative analysis of how the teachers' ‘prevailing discourses’ were expressed in their everyday enactment (thinking and acting) and how these discourses evolved over time.34 

수행된 분석 과정은 모의emplotment라고 알려져 있는데, 이것은 연구자들이 그들의 경험을 이해하기 위해, [교사들이 했던 것과 같은 방식으로 인간의 행동, 의미, 동기, 사건, 결과를 연결했다는 것]을 의미한다.

  • [플롯]은 시작, 중간, 끝을 중심으로 정렬되며, 이는 [인간 추론의 간단한 개요]에 비해서 [서사적 분석의 결과를 더 많이 만들고], [네러티브의 주제 분석의 제시]와는 다르다.
  • [플롯]은 물리적 의미에서의 다양한 사건들이 어떻게 전개되는지를 중심으로 구성될 수도 있지만, 우리가 인간의 변화 경험에 관심을 기울였을 때, 모의emplotment는 [선생님들이 의미 있는 것으로 표현한 사건들에 초점]을 맞추었다. 
  • 우리의 연구 접근법에 따르면, 인간의 [의미 만들기]는 종종 물리적 연대기와는 다른 시간과 상호 연결된 사건의 재창조라고 간주되었다.
  • 전개되는 서술(emplotment)은 여러 번 다시 쓰여졌고 작가들 사이에서 논의되었다. 결국, 그들의 평가 관행이 어떻게 변화했는지와 학생들의 임상 역량을 평가하기 위한 기준을 어떻게 이해했는지에 대한 교사들의 의미 결정(행동 및 경험을 통해 보여짐)을 묘사하면서, 일관된 내러티브가 구성되었다.

The analytical process conducted is known as emplotment, which means that the researchers linked human action, meaning, motives, events and consequences in the ‘same way’ the teachers did, in order to make sense of their experiences.29, 34 

  • Plots are ordered around a beginning, middle and end, which makes the findings from a narrative analysis more than a brief outline of human reasoning and differs from the presentation of a thematic analysis of narratives.3035 
  • Plots may be structured around how different events played out in a physical sense, however, as we attended to human experience of change, the emplotment centred on happenings the teachers expressed as meaningful.
  • In accordance with our research approach, human meaning-making was regarded as a re-creation of time and interconnected events that most often differ from physical chronology.2728 
  • The unfolding narrative (the emplotment) was rewritten several times and discussed among the authors. Eventually, a coherent narrative was structured, depicting the teachers' meaning-making (shown through action and experience) of how their assessment practices had changed and how they made sense of the criteria to assess students' clinical competency.

표 1. 중요 이벤트
TABLE 1. 
Significant events


중요 이벤트

* 투명성 요건이 높아진 대학 개혁에 이어 교육과정 개정도 뒤따랐다.
* 학생들의 성적은 나빠졌고, 그들은 지원이 너무 적다고 불평했고 자퇴를 원했다.
* 교육학에서의 역량 개발은 동료 평가와 미니 CEX의 구현으로 이어졌다.
* 학생들의 임상 기술을 평가하는 평가자의 수를 2명에서 1명으로 줄인다.
* 교육 문제를 논의하기 위한 정기적인 교사 회의를 도입했습니다.
* 학생들은 평가의 불공평함에 대해 불평했다.


Significant events
  • University reform with increased requirements of transparency, followed by curriculum revision.
  • Students' performances deteriorated, and they complained about too little support and wanted to drop out.
  • Competence development in pedagogy resulted in the implementation of peer-assessments and mini-CEX.
  • Reduction in the number of assessors grading students' clinical skills from two to one.
  • Introduced regular teacher-meetings to discuss educational matters.
  • Students complained about unfairness in assessments.

2.4 방법론적 성찰 및 한계
2.4 Methodological reflections and limitations

내러티브는 사회적 맥락에 내재되어 있으므로 독특하고 일반화되지 않는다. 그것들은 현상의 풍부함과 복잡성을 묘사하고 있으며, 독특한 내러티브는 다른 맥락에서 일어나는 일들을 설명하고 이해하기 위해 전이transfer될 수 있고, 그 목적을 위해 여기에 맥락적 설명이 포함된다. 여기에 보고된 서술은 교사들에게 의미 있는 동기와 사건들을 포함한 변화 과정을 보여준다. 자연과학의 관점에서, 사건에 대한 인간의 기억은 편향될 수 있다. 예를 들어, 서술적 의미 만들기는 사건의 정확한 연대기적 표현을 반영하지 않을 수 있다. 따라서 [내러티브 인 액션 분석]은 [집행된 이야기]와 [인간이 그들의 관점에서 사건을 이해하는 방법]을 조명한다. 우리가 사회 문화적 관점을 채택하고 분석의 단위로 그룹 레벨에 참여했기 때문에, 교사들의 감각 형성에서의 개인 차이는 여기서 다루지 않는다. 이 분석에는 개입을 수행한 9명의 교사로부터 생성된 데이터가 포함되었으며, 한 연구 프로그램에 대한 주된 책임이 있었다. 그러나 학생들을 가르치고 평가한 다른 보건 전문가와 대학 교수진들은 그들의 관점을 공유하지 않았을 수 있다. 게다가, 참여 교사들은 이전에 교수진 개발에 참여했으며, 비록 그들 모두가 평가에 관한 특별한 교육을 받은 것은 아니지만 교육학상 지식을 가지고 있는 것으로 가정했다.

Narratives are embedded in social contexts and therefore unique and not meant to be generalised. They depict the richness and complexity of a phenomenon, and what unique narratives illustrate can be transferred to explain and understand happenings in other contexts, and for that purpose, contextual descriptions are included here.33 The narrative reported here illustrates change processes including motives and events that were meaningful to the teachers. From a natural science perspective, humans' recollection of events may be biased; for example, narrative sense-making may not reflect a precise chronological presentation of events. Narrative-in action analysis thus illuminates enacted stories and how humans make sense of events from their perspective. As we adopted a socio-cultural perspective,26, 36 and attended to the group level as the unit of analysis, the teachers' individual differences in sense-making are not addressed here. The analysis included data generated from nine teachers who conducted an intervention and had the main responsibility for one study programme, although other health practitioners and university faculty who taught and assessed their students may not have shared their perspectives. Furthermore, the participant teachers had previously attended faculty development and assumed to be pedagogically informed, although not all of them had training specifically regarding assessment.

2.5 윤리적 고려사항
2.5 Ethical considerations

이 연구에 대한 윤리적 승인에 따라, 모든 참가자들은 구두와 서면으로 통지를 받은 후 공식적으로 참여하기로 동의했습니다. 교사들에게는 가명이 주어지고, 더 나아가 기밀성을 보장하기 위해, 전문적인 활동에 관한 세부 사항은 공개되지 않는다.

In accordance with the ethical approval for this study, all participants formally consented to take part after being informed orally and in writing. The teachers are here given pseudonyms, and to further ensure confidentiality, no details concerning professional activities are disclosed.

3 결과
3 RESULTS

3.1 평가 공정성 보장
3.1 Safeguarding fairness in assessments

이 연구 결과는 교사들이 학생들의 임상 기술을 평가하기 위한 채점 기준의 사용을 교정하기 위한 도덕적 의도에 의해 동기부여가 된 이야기를 제시한다. 이 섹션에서는 먼저 프롤로그가 우리의 분석을 바탕으로 평가 기준과 교육과정을 재작업하려는 교사들의 의도를 설명한다. 그 다음에, 이야기의 윤곽이 잡힌다.

  • (a) 어떻게 선생님들이 기준을 포함하는 평가 지향적인 문화를 발전시켰는지, 
  • (b) 선생님들께서 이해하셨던 방식들 
  • (c) 평가의 공정성에 대한 그들의 가치와 관련하여 교사들의 채점 기준 개발이 어떻게 다른 방향으로 전환되었는가. 

그리고 나서 에필로그는 선생님들이 그들의 개입을 어떻게 요약했는지 보여준다. 서술에 포함된, 선생님들의 계속되는 대화와 설명은 어떻게 그들의 노력이 명백해졌는지를 묘사한다. 이러한 계정에는 미팅이나 미팅 사이 또는 인터뷰 상황에서 교사들에게 공유된 짧은 이야기가 포함됩니다.

The findings present a narrative where the teachers became motivated by moral intentions to calibrate their use of grading criteria for assessing students' clinical skills. In this section, the prologue first explains, based on our analysis, the teachers' intentions of reworking assessment criteria and the curriculum. Then, the narrative outlines

  • (a) how the teachers developed an assessment-oriented culture in which criteria were embedded,
  • (b) the ways in which the teachers made sense of those and
  • (c) how the teachers' development of grading criteria took different turns in connection with their values of fairness in assessments.

The epilogue then shows how the teachers summarised their intervention. Included in the narrative, the teachers' ongoing dialogues and accounts situate and depict how their endeavours became manifest. These accounts include short stories that were shared among the teachers in and between meetings or in interview situations.

3.2 프롤로그: 변화를 시작한 동기
3.2 Prologue: Motives to initiate change

병원 현장에서 함께 일하는 보건 전문 교사 그룹은 [성과-기반 교육]을 향한 중요한 커리큘럼 개혁을 수행했다.

  • 이 변화 과정의 일환으로, 그들은 임상 기술 훈련에 대한 강조를 증가시키고, 그들의 교육 역할을 재정의하고, 촉진적 역할을 채택하고, 정보 제공자로서 그들의 시간을 줄였다.
  • [임상 기술에 관한 평가의 증가]는 그들이 두 명의 검사관으로부터 한 명의 검사관으로 자원을 절약하도록 강요했다. 이는 다소 신뢰할 수 없는 것으로 느껴졌기 때문에, 그들은 형성적 평가와 총괄적 평가에 유용한 공동 기준을 개발했다.
  • 하지만, 학생들은 점점 더 불평등하게 평가를 받고 있고 일부 교사들이 더 가혹한 판단을 하고 있다고 불평했다
  • 교사들은 처음에는 이러한 불만을 부정했지만, 평가 후 회의를 하는 동안, 그들이 기준에 대한 이해가 서로 다르고, 학생들의 성적을 평가하는 방법도 서로 다르다는 것을 깨달았다.

이를 통해 그들은 학생들의 임상 기술 평가와 기준의 적용을 조화시킬 목적으로 개입을 수행하게 되었다.

A group of health profession teachers working together at a hospital site had conducted a significant curriculum reform towards outcome-based education. As part of this change process, they increased the emphasis on training of clinical skills, re-defined their teaching roles, adopted a facilitating role and reduced their time as information providers. The increase of assessments concerning clinical skills forced them to economise resources from two examiners to one. This felt a bit unreliable, so they developed joint criteria useful for both formative and summative assessments. However, the students increasingly complained that they were being assessed unfairly and that some teachers were making harsher judgements. The teachers at first rejected these complaints, but during post-assessment meetings, they realised that they had different understandings of the criteria and different ways of judging student performance. This led them to conduct an intervention with the aim of harmonising the application of the criteria and assessment of students' clinical skills.

3.3 교사들이 면밀한 조사에 대해 어떻게 개방하였는가?
3.3 How the teachers opened up to scrutiny

3.3.1 서술은 현재 시간에서 시작되며 10년간의 변화가 어떻게 등급 기준의 공동 개발을 가능하게 했는지 개략적으로 설명한다.
3.3.1 The narrative starts in present time and outlines how a decade of changes made joint development of grading criteria possible

평가 기준의 개선 뒤에 있는 아이디어는 지난 10년 동안 발전한 교사들의 실천에서 비롯되었다. 정밀 조사를 개방함으로써, 그들은 [명확한 평가 기준을 적용하는 것이 도덕적 의무]라는 공통의 이해를 위한 길을 열었다. 다음 이야기는 평가를 통한 학생 학습을 지원하기 위해 기준의 사용이 어떻게 그들의 접근법의 필수적인 부분이 되었는지를 묘사한다.
The ideas behind improvements to the assessment criteria arose from the teachers' practice as it evolved over the last 10 years. By opening up to scrutiny, they paved the way for a shared understanding that applying clear assessment criteria was a moral obligation. The following story depicts how the use of criteria had become an integral part of their approach to support student learning through assessments.

 

회의에 가는 길에 존은 한 학생에 의해 제지당했는데, 한 학생이 그녀의 머리를 훈련실 밖으로 내밀고 그에게 손짓했다. 그녀는 '존, 내가 안나를 진찰하는 동안 좀 볼래?'라고 말했다. 만나기 전까지 아직 시간이 좀 남아있던 존은 그녀의 초대에 기쁘고 마음이 놓였다. 이 학생은 수줍음이 많고 지속적인 평가에 참여하는 것을 꺼리는 것으로 알려졌다. 때때로, 그녀가 환자 검사 절차에 대해 자신감이 없는 것인지 아니면 단지 그녀의 성과를 면밀히 검사하는 것이 불편한지 구별하기 어려웠다. 그녀가 마침내 마음을 열게 된 것을 기뻐하며 그는 그녀에게 미소를 지으며 말했다: "기꺼이 그러죠!"
On his way to a meeting, John was stopped by a student who stuck her head out of one of the training rooms and beckoned him. She said, ‘Hey John, would you like to watch while I examine Anna?’ John, who still had some time before his meeting, was happy and relieved by her invitation. The student was known to be shy and reluctant to participate in continuous assessment. Sometimes, it was hard to tell if she was insecure about the patient examination procedures or if she was just uncomfortable having her performances scrutinised. Pleased that she had finally opened up, he smiled at her and said: ‘I'd be happy to!’

 

위의 이야기에서 알 수 있듯이, 부서의 일상적인 정신은 개방적이고 친근했습니다. 몇 년에 걸친 교사들의 끈질긴 작업을 통해, 그리고 서술형 분석에 의해 조명되어, 그들은 [평가 지향적 문화]를 발전시켰는데, 이것은 동료 학습과 평가가 어떻게 지속적으로 적용되는지 보여 주었다. 여러 가지 방법으로, 선생님들은 어떻게 [대화와 동료평가]가 학생들 사이에서, 그리고 그들 자신들 사이에서, 습관적인 관행으로 발전해왔는지를 밝혔다. 그들은 [그들의 가르침에 대한 지속적인 평가]와 [공동으로 교육 개선을 하는 것]에 대해 그들이 어떻게 편안함을 느끼는지에 대해 공개적으로 말했다.
As illustrated by the above story, the everyday spirit at the department was open and friendly. Through the teachers' persistent work over several years, and illuminated by the narrative analysis, they had developed an assessment-oriented culture, which was shown in how peer learning and evaluations were continuously applied. In several ways, the teachers revealed how dialogue and peer assessments had developed into a habitual practice among the students and among themselves. They spoke openly about how they felt comfortable with continuous evaluations of their teaching and of jointly making educational improvements.


우리의 서술적 분석은 교사들이 [공동으로 채점 기준을 개발]하고, [평가를 공정하게 만들기 위한 노력]이 그들이 [점차적으로 면밀한 검토를 받게 된 변화 과정의 결과]라는 것을 보여준다. [평가 기준의 도입]은 서로 다른 교수법과 학습 활동을 적용하는 데 [수년간의 시행착오]가 선행되었다. [동료 평가]는 학생들이 학습에 더 큰 책임을 지는 것을 지원하는 한 가지 방법으로 약 5년 전에 시작되었다. 동료 학습을 적용한 지 몇 년 후, 학생들이 임상 작업을 연습하는 동안 다른 사람을 초대하여 피드백을 제공하는 것이 일반적이 되었다. 교사들은 지속적인 평가가 창의성과 새로운 발전을 위한 공간을 만들면서 '많은 것을 얻었다'고 믿었다. 하지만, [명시적인 평가 기준의 적용]이 그들의 야망을 더 크게 만든 [도덕적 선]을 대표한다는 것이 교사들의 믿음이었다.

Our narrative analysis shows that the teachers' efforts to jointly develop grading criteria and make assessments fair were the result of a change process in which they gradually opened up to scrutiny. The implementation of assessment criteria was preceded by years of trial and error in applying different teaching methods and learning activities. Peer assessments started out, about 5 years ago, as one way to support students taking greater responsibility for their learning. After a few years of applying peer learning, it became commonplace for students to invite others to provide feedback while practising clinical work. The teachers believed, they ‘had gained a lot’ by opening the door to continuous evaluation as it created space for creativity and new developments. However, it was the teachers' belief that the application of explicit assessment standards represented the moral good that drove their ambitions further.

3.4 어떻게 교사들이 '도덕적 선'을 제정하였는가?
3.4 How the teachers enacted the ‘moral good’

3.4.1 이 서술의 두 번째 부분은 왜 채점 기준이 교사들에게 의미 있게 되었는지, 그리고 과거의 법들이 어떻게 공정한 평가를 위한 현재의 이니셔티브를 강화했는지 설명한다.
3.4.1 This second part of the narrative illustrates why grading criteria became meaningful to the teachers and how past enactments reinforced current initiatives to assess fairly

교사들은 그들의 평가 관행을 개선하고 질 높은 교육을 제공하기 위해 몇 가지 계획을 세웠기 때문에, [환자와 학생들을 돌보는 것]이 그들의 핵심 동기였다. 궁극적으로, [평가 기준]은 졸업생들이 필요한 역량을 갖추도록 함으로써 교사들이 환자에 대한 의무를 이행하는 수단이었다. 예를 들어, 시간 제한 평가에 대한 그들의 아이디어는 전문적인 작업에서의 효과와 거의 관련이 없었지만, 오히려 학생들이 신체 검사 동안 환자의 불편함을 최소화해야 했고, 따라서 환자들이 도움을 구하는 것을 두려워하는 것을 막아야 했다. '도덕적 선'을 실행enact하려는 교사들의 노력은 (한나의 높은 관심 기말고사 회상 등과 같이) 과거 학생평가 경험에 대한 이야기로 강화되고 정당화됐다.

As the teachers had taken several initiatives to improve their assessment practice and provide a high quality education, caring for patients and students was their key motivation. Ultimately, the assessment criteria were means for teachers to fulfil their obligations towards patients by ensuring graduates had the necessary competency. For example, their idea of time-limited assessments had little to do with effectiveness in professional work, but rather concern of patients' discomfort during physical examination, which students needed to minimise and thereby preventing patients from being afraid to seek help. The teachers' efforts to enact the ‘moral good’ were reinforced and justified by stories about past experiences of student assessment, such as Hanna's recollection of high-stake final exams.

 

당신의 인생 동안, 당신은 결코 당신의 실제 기술에 대해 평가되지 않습니다. 유일한 시간은 당신이 운전 시험을 볼 때이다. 학생들이 그들의 성과에 대한 평가를 받은 경험이 부족했던 것은 당연하다! 생각해보면 그건 정말 비윤리적이었어요. 그들은 몇 년에 걸쳐 연구를 계속했고, 졸업하기 직전에 임상 성적에 따라 점수를 매겼다. 그들 중 몇몇은 이미 직업을 가지고 있었다. 그리고 나서, 펑, 그들은 기말고사에서 떨어졌어! 그들은 너무 긴장해서 얼굴이 파랗게 질려 쓰러질 것 같았다.

During the course of your life, you are never evaluated on your practical skills. The only time is when you take your driving test. No wonder the students lacked experience of being assessed on their performance! It was really unethical, when you think about it. They pursued their studies over several years, and right before they graduated, they were graded on their clinical performances. Some of them had already got jobs. And then, bang, they failed their final exam! They were so nervous their faces turned green, and they were ready to faint.

 

그런 이야기들이 교사들 사이에서 반복적으로 공유되었고, 현재의 제도에 비해 과거의 평가 관행이 얼마나 미흡했는지에 대한 인식을 심화시켰다. 이런 식으로, 과거의 사건들은 그들이 어떻게 지속적인 임상 기술 훈련을 추가하는 것을 포함한 교육 과정의 개혁이 도덕적으로 정당했는지 확인했습니다. 교사들은 이러한 변화들이 학생들이 더 나은 준비를 하고 더 나은 성적을 거두도록 했다고 믿고 있다. 그들은 또한 [practical skills에 대한 평가를 받는 것]은 학생들에게 새롭고 매우 스트레스를 많이 받는 상황이며, [그 자체가 훈련과 평가를 필요로 하는 능력]으로 간주되어야 하는 것이라는 것을 이해하게 되었다. 그러나, 커리큘럼의 변화와 지속적인 동료 학습 및 피드백의 사용으로, 등급별 평가는 덜 극적으로 되었다. 
Such stories were shared repeatedly among the teachers and deepened the perception of how assessment practices in the past were inadequate, compared with the present system. In this way, past events confirmed how their reformation of the curriculum including adding continuous clinical skills training was morally justifiable. The teachers believed these changes had led to students feeling better prepared and performing better. They had also come to understand that being assessed on practical skills was a new and highly stressful situation for the students and something that should be regarded as an ability in its own right that required training and evaluation. However, with the curriculum changes and the use of continuous peer learning and feedback, the graded assessments had become less dramatic.



임상 기술 평가에 기준을 적용하는 것은 공평하고 환자의 안전을 보장한다는 교사의 가치를 강제하기 때문에 의미가 있다. 그러나 [도덕적 선]에 대한 내러티브를 제정enact하는 것은 때때로 [평가의 공정성, 환자의 책임성, 학습 촉진의 가치]가 충돌한다는 것을 의미했다. 무엇이 공정하고 무엇이 공정하지 않은지 결정하는 딜레마도 제시했다.

Applying criteria to the assessment of clinical skills became meaningful because it enforced the teachers' values of being fair and ensuring patient safety. However, enacting the narrative about the moral good meant that the values of fairness in assessment, patient accountability and facilitation of learning sometimes collided. It also presented the dilemma of deciding what was fair and what was not.

3.5 교사들이 편파적인 평가를 통해 공정성을 어떻게 유지하였는가?
3.5 How the teachers upheld fairness with an unbiased assessment

3.5.1 이 서술의 세 번째 부분은 학생들을 공정하게 평가하려는 교사들의 가치와 관련하여 성적 기준의 공동 개발이 어떻게 다른 방향으로 이루어졌는지를 보여준다.
3.5.1 This third part of the narrative shows how the joint development of grading criteria took different turns associated with the teachers’ value of assessing students fairly

평가를 조화시키는 방법에 대한 논의 동안, 특정 학생의 행동을 촉진하는 방법으로 기준을 적용하려는 교사들의 노력이 분명해졌다. 학생들이 환자 안전 및 우수 관리 기준의 최소 요건을 충족하도록 보장하기 위한 한 가지 방법은 손을 씻거나 기구를 소독하는 것과 같이 환자를 검사할 때 무엇을 해야 하고 해서는 안 되는지에 대한 [절대적인 요건]을 정의하는 것이었다. 이와 같은 성과는 학생들이 이러한 과제를 수행하는 방법의 다양한 품질에 관계없이 합격/불합격으로 평가되었으며, 결과적으로 학생이 이러한 과제를 수행하거나 전체 시험에서 불합격하게 된다. 한편으로, 이러한 '둘 중 하나 혹은 둘 중 하나'의 공연은 평가하기가 쉬운 것으로 보였고, 다른 한편으로는, 학생들이 그러한 활동을 부분적으로 했을 때, 우려의 대상이 되었다. 한 가지 제안은 교사들이 환자를 진찰하는 데 실제로 사용된 모든 기구들이 실제로 소독되었다는 것을 고려할 수 있다는 것이었다. 다만 기준에 따르면 모든 위생적인 측면이 협상 불가로 규정돼 시험에 사용한 적이 있는지 여부와 관계없이 모든 기구 소독을 소홀히 한 학생에게 불합격시키는 것이 타당했다. 일부 교사들은 이러한 유형의 평가를 수행하는 것이 더 쉽고, 협상할 수 없으며, 따라서 공정하다고 주장하면서 이러한 유형의 평가를 지지했다. 이들의 주장의 이면에는 환자에 대한 걱정이 있었고, [모든 기구를 소독하는 것을 소홀히 한 학생]은 [환자를 치료하는 것]도 전적으로 신뢰할 수 없다는 점이 있었다. 이 협상할 수 없는 '어느 쪽인가' 추론도 아래 대화에서 보여지듯이 다른 성격의 성과를 평가하기 위한 기준을 적용할 때 채택되었다.

During the discussions of how to harmonise assessments, the teachers' efforts to apply criteria in ways that promoted certain student behaviours became clear. One way to ensure that the students met the minimum requirements of patient safety and good practice was to define absolute requirements of what they should and should not do when examining patients, such as washing their hands and disinfecting instruments. Performances like that were assessed pass/fail, regardless of the varied quality of how students carried out these tasks, consequently, either the student performed these tasks or the student would fail the entire exam. On the one hand, these ‘either-or’ performances were seen as easy to assess; on the other hand, there was concern when students performed such activities partially, as in the case of a student who cleaned a few of the instruments, but not all of them. One suggestion was that the teachers could take into account that all of the instruments actually used to examine the patient had in fact been disinfected. According to the criteria, however, all hygiene aspects were stipulated as non-negotiable, which made it reasonable to fail students who neglected to disinfect all instruments regardless of whether they had been used in the examination. Some teachers argued in favour of this type of assessment, contending it was easier to conduct, non-negotiable and therefore fair. Behind their argument was a concern for patients and that a student who neglected to disinfect all instruments could not be fully trusted to treat patients. This non-negotiable ‘either-or’ reasoning was also adopted when they applied criteria to assess performances of a different nature, as illustrated by the dialogue below.

 

  • 존: 만약 모든 사람들이 그 학생이 병력 청취를 요약한 적이 없다는 것에 동의한다면, 그 기준이 분명히 그렇게 되어야 한다고 하는데 왜 우리는 모두 그 학생을 합격으로 평가했을까?
  • 티나: 흠, 아주 좋은 질문이야!
  • 에드워드: 하지만 그녀가 한 일, 그녀가 공연한 일들, 그녀는 정말 잘 해냈어요. 그녀는 결코 그것을 완전히 이해하지 못했다.
  • 한나: 나는 우리가 이 기준을 두 부분으로 나눌 필요가 있다고 생각해, 그렇지 않으면 피드백을 주기가 어려울 거야. 첫 번째 부분은 시술 중에 사용된 기술이어야 합니다. 이 경우, 그녀가 한 모든 일에 대해 어느 정도 신뢰를 줄 수 있습니다. 그게 공평할 것 같아요. 그리고 나서, 병력의 요약은 별도의 기준이 될 수 있다.
  • 비트라이스: 만약 우리가 당신의 제안대로 한다면, 요약은 여전히 5포인트로 계산되어야 하며, 우리가 그것들을 낮추기 위해 사용하는 기준이 되어야 하는가? 
  • 제니: 네 말은, 만약 그들이 병력 청취에 대한 요약을 하지 않았다면, 그들은 실패했다는 거야?
  • 한나: 글쎄, 그래, 그래야 한다고 쓰여 있는 한, 여기 템플릿에 있어.
  • 에드워드: 학생들의 눈에는, 네가 이렇게 하지 않으면 시험에 떨어진다는 것이 분명할 거야!
  • 한나: 그래, 그리고 그들은 템플릿이 말한 대로 해!
  • 존: 좋아, 만약 그들이 병력 청취를 요약하지 않으면, 그들은 모든 시험에서 낙제한다는 거야?!
  • 한나: 그래, 만약 그들이 요약하지 못한다면, 우리는 그들이 왜 환자가 먼저 왔는지 이해했는지 절대 알 수 없을 거야. 당신은 그 문제를 정확하게 처리했나요? 글쎄요, 애초에 문제를 파악하지 못했다면 알 방법이 없습니다. 
  • John: If everyone agrees that the student never made a summary of the history-taking, then how come we all graded the student as pass when the criteria clearly says that this should be done?
  • Tina: Hmm, very good question!
  • Edward: But what she did, the things she performed, she did really well. She just never really got it completely.
  • Hanna: I think we need to split this criterion into two parts, otherwise it will be hard to give feedback. The first part should be the technique used during the procedure, so that, in this case we can give some credit for all that she did. I feel that would be fair. And then, the summary of the history-taking can be a separate criterion.
  • Beatrice: If we do as you suggest, should the summary then still count as five points and be a criterion we use to bring them down?
  • Jenny: You mean if they haven't made a summary of the history-taking they fail?
  • Hanna: Well, yes, as long as it says should, here in the template.
  • Edward: In the eyes of the students, it will be clear that you fail your exam if you don't do this!
  • Hanna: Yes, and they do what the template says!
  • John: Ok, so if they don't summarise the history-taking, they fail the whole exam?!
  • Hanna: Well yes, if they fail to summarise, we will never know if they understood why the patient came in the first place. Did you handle the problem correctly? Well, there is no way of knowing if you never identified the problem in the first place.

기준을 개발하기 위한 교사들의 작업 동안, 그들은 과거에 평가가 어떻게 수행되었는지를 반성했습니다. 토론 중 반복적인 논평은 교사 그룹이 과거에 학생 성과에 대한 [주관적인 평가를 하는 것]에서 [가능한 객관적인 것]으로 어떻게 변화했는지를 강조하였다. 한 전직 교수가 한 학생의 시험에 대해 "너무 귀엽다, 합격이다"고 말한 적이 있는 '옛날'의 명시적 기준이 부족했다고 함께 웃었다. 그러나 완전히 객관적인 것은 표준화된 기준을 사용하여 다른 성격의 학생-환자 만남을 평가할 때 어려운 것으로 간주되었고, 토론하는 동안 교사들은 반복적으로 서로에게 '그러나 그것은 다시 주관적이 된다'고 상기시켰다. [주관성]은 주로 [전문적 행동과 의사소통 기술의 평가]와 관련되었으며, 따라서 이러한 기준을 명확히 함으로써 오해할 수 없는 성과 차원을 정의할 필요가 생겼다. 다양한 방법으로 전문적인 행동의 차원을 정의하려고 노력하면서, 선생님들은 행동, 전반적인 의사소통, 병력 청취의 요약, 진단과 치료 그리고 전문용어의 사용에 대한 정보를 제공하는 것 사이의 차이에 대해 추론했다. 그들은 전문적인 행동의 평가에 대한 두 가지 다른 이유들 사이에서 망설였다: [전반적인 의사소통과 전문적인 행동을 평가]하거나, [의사소통을 별도의 부분으로 나누고 환자 검사의 각 부분에 연결]했다. 그들은 의사소통 능력이 전문적인 행위와 다소 다르며 아마도 별도로 평가할 수 있을 것이라는 데 동의하였다.

During the teachers' work to develop the criteria, they reflected upon how assessments had been performed in the past. Recurrent comments during the discussions highlighted how the teacher group had changed from making subjective assessments of student performance in the past, to being as objective as possible. Together, they laughed about the lack of explicit criteria back in the ‘old days’ when a former professor once said about a student's examination, ‘She is so cute, she can pass’. However, being entirely objective was considered difficult when using the standardised criteria to assess student–patient encounters of a different nature and during the debates the teachers repeatedly reminded each other ‘but then it becomes subjective again’. Subjectivity was mainly associated with the assessment of professional behaviour and communication skills, and therefore, clarifying those criteria created a need to define performance dimensions that could not be misinterpreted. Trying to, in various ways, defining dimensions of professional behaviour, the teachers reasoned about the differences between behaviour, overall communications, the summary of history-taking, giving information about the diagnosis and treatment and the use of jargon. They teetered between two different rationales on the assessment of professional behaviour: assessing overall communication and professional behaviour or dividing the communication into separate pieces and connecting it to each part of the patient examination. They agreed that communication skills were somewhat different from professional behaviour and could perhaps be assessed separately.

평가에서 공정하고 일관성을 유지하기 위한 시도로, 교사들에 의해 기준과 학생들의 성과에 대한 여러 해석이 면밀히 검토되었다. 그러나 그들은 표준화가, 예를 들어 학생들이 특별히 골치 아픈 환자를 검사할 때처럼, 임상 작업의 현실과 완전히 양립할 수 없다고 믿었다. 
In an attempt to be fair and consistent in assessments, multiple interpretations of criteria and student performances were scrutinised by the teachers. However, they believed that standardisation was not fully compatible with the reality of clinical work, for example, when students examined patients that were considered particularly troublesome.

  • 비트라이스: 시험이 너무 오래 걸려 낙방한 학생들에게 동시에 제한시간을 초과한 친구가 있는데 어떻게 설명할 것인가? 미니 CEX에 사용하는 10%의 시간 마진을 추가해야 할까요? 
  • 조지: 안돼! 템플릿에 그렇게 심하게 조종당해서는 안돼!
  • 제니: 동의해. 우린 로봇이 아니야!
  • 존: 나도 동의해. 만약 그렇다면, 제 말은, 환자가 특별히 힘들어하는 것을 본다면, 여러분은 단지 범죄 행위를 저지르고 틀에서 벗어나야 한다는 것입니다. 

  • Beatrice: How do we explain to students who failed because the examination took too long, when, at the same time they have a friend who passed who also exceeded the time limit? Should we perhaps add the ten percent time margin that we use for the mini-CEX?
  • George: No! You cannot let yourself be steered by the template that hard!
  • Jenny: Agree. We're not robots!
  • John: I agree. If that is the case, I mean if you see that the patient is being particularly difficult, you just have to commit a criminal act and deviate from the template.

위의 대화는 교사들이 기준 템플릿을 따르고 현실을 다면적으로 인식하고 상황의 복잡성을 고려하여 전문적인 판단을 내리는 등 공정성을 이루려 노력했음을 보여준다.

The dialogue above shows how the teachers tried to achieve fairness by following the criteria template and recognised reality as multifaceted and that making professional judgements required considering the complexity of the situation.

3.6 에필로그—완벽한 평가 기준 없음
3.6 Epilogue—No perfect assessment criteria

그들의 개입이 끝날 때, 선생님들은 학생들에게 평등한 상황을 만드는 것이 얼마나 어려운지를 반성했고 완벽한 평가 기준이라는 것은 없다는 결론에 도달했다. 그들의 개입을 반성하면서, 그들은 단일 기준을 다르게 평가했음에도 불구하고, 각 학생들에 대한 전반적인 평가는 그들이 기대했던 것보다 더 동등하다고 느꼈다. 이로 인해 교사들은 평가가 완전히 조화를 이루지 못할지라도, 그들의 공동 토론은 협상 가능한 합의로 이어졌다고 결론을 내리게 되었다.

At the end of their intervention, the teachers reflected upon how hard it was to create equal situations for the students and came to the conclusion that there was no such thing as perfect assessment criteria. Reflecting on their intervention, they felt that even though they valued single criteria differently, the overall assessment of each student was more equal than they had anticipated. This made the teachers conclude that, even if assessments would never be completely harmonised, their joint discussions had led to a negotiable consensus.

4 토론
4 DISCUSSION

이 연구 결과는 어떻게 교사들이 [공통 채점 기준을 개발]할 수 있었는지를 보여주며, 이러한 변화는 그들의 [공정성과 책무성]에 대한 가치관에 의해 추진되었다. 기준은 커리큘럼에 통합되어 형성 및 종합 평가에 유용했다. 그런 방식으로, 그리고 교사들의 관점에서, 기준은 공정한 평가를 보장하고 미래의 환자들이 가능한 최고의 치료를 받을 수 있도록 했다. 그러나 [통합 역량의 평가]와 [분리된 '기술의 조각'의 평가]와 같은 여러 딜레마가 나타났다.
The findings show how the teachers' development of common grading criteria was made possible by their openness to peer scrutiny and that these changes were driven by their values of fairness and accountability. Criteria had been integrated in the curriculum, useful for formative and summative assessments. In that way, and from the teachers' perspective, criteria safeguarded fair assessments and that future patients would receive the best possible treatment. However, a number of dilemmas emerged, such as the assessment of integrated competencies versus the assessment of separate ‘pieces of skills’.

[평가 지향적 문화 정착]은 교사들이 어떻게 채점 기준의 적용을 조화시키는지에 대한 [선결조건]으로 보였다. 암묵적으로 전달된 기대에서 기준에 대한 공유된 이해로 평가 관행의 이러한 변화는 표준 공유에 대한 교사들의 접근 방식에 대한 O'Donovan 등의 모델과 비교하여 이해할 수 있다. 과거 [자유방임주의 접근법]에서와 같이 암묵적인 기준이 얼마나 우세했는지를 언급함으로써, 교사들은 명확한 기준을 적용하기 위한 그들의 선택을 정당화했다. 그 후 암묵적인 기준에 대응하여 채점 기준이 시행되었지만, 교사들은 명확한 기준이 충분하지 않다는 것을 깨달았다. 학생 개개인의 평가 기준에 대한 이해는 다를 수 있으며, 이 연구의 교사들은 [평가와 관련된 그들의 의도]를 충족시키기 위해 [모든 학생들이 동일한 방법]으로 기준을 이해할 필요가 있다는 것을 깨닫게 되었다. 따라서, 학생들의 동료 평가와 병행한 형성적 평가가 커리큘럼 전반에 걸쳐 통합되었고, 이는 [사회 구성주의적 접근법]의 제정을 가능하게 했다. 흥미롭게도, 채점 기준을 적용하는 것에 대한 대화에 학생들을 참여시키는 것은 더 많은 해명의 필요성을 만든 것으로 보인다. 학생들이 그들이 평가하는 기준에 완전히 접근할 수 있을 때, 이러한 기준에 비추어 그들의 성과에 대해 토론할 기회가 있다고 결론짓는 것은 그럴듯해 보인다. 결과적으로, 선생님들은 기준을 해석하는 방법, 받아들일 수 있는 학생 수행의 범위, 그리고 그들의 판단을 정당화하는 방법에 대해 숙고할 필요가 있을 수 있다.

The establishment of an assessment-oriented culture seemed to be prerequisite for how the teachers were committed to harmonise their application of grading criteria. This change in assessment practice, from tacitly conveyed expectations to shared understandings of criteria, can be understood vis-à-vis O'Donovan et al.'s19 model of teachers' approaches to sharing standards. By referring to how tacit standards, as in the laisse-faire approach prevailed in the past, the teachers justified their choice to apply clear criteria. Grading criteria were then implemented, in response to tacit standards, but the teachers realised that articulating criteria were not enough. Individual students' understanding of assessment standards may differ,19 and the teachers in the present study came to realise that, to fulfil their intentions concerning assessments, all students needed to make sense of the criteria in the same way. Thus, formative assessments in parallel with students' peer reviews were integrated throughout the curriculum, which enabled the enactment of a social-constructivist approach.19 Interestingly, it appears that involving students in the dialogue about applying grading criteria created a need for further clarifications. It seems plausible to conclude that, when students have full access to the standards by which they are judged, there is an opportunity to discuss their performances in light of these standards. Consequently, teachers may need to reflect on ways to interpret criteria, the range of acceptable student performances and how to justify their judgements.

우리는 예를 들어, [준거-참조 프레임워크를 통해 표현된 공유 표준]이 피드백을 중재할 수 있다는 Kogan 등의 의견에 동의한다. [명시적 기준]은 학습을 촉진할 수 있지만, 그러한 기준의 질에 대해서는 아무 말도 하지 않으며, 따라서 예를 들어, 교사의 판단이 타당하다는 것을 보장하지 않습니다.1 다른 사람들이 지적하는 바와 같이, 유효성 및 신뢰성은 시험의 내재적 특성이 아니며 단순히 평가 도구를 적용한다고 해서 달성되는 것도 아니다. 교사 커뮤니티 내의 공동 협상은 (이 연구에서 교사들에 의해 열린 토론과 유사하게) 학생 성과에 대한 기준과 판단의 이해를 조화시킬 수 있을 것이다.

We agree with Kogan et al.17 that shared standards articulated via, for example, a criterion-referenced framework can mediate feedback. While explicit criteria can facilitate learning, they say nothing about the quality of those standards and, therefore, do not safeguard that, for example, teachers' judgements are valid.1 As others point out,1 validity and reliability are not immanent traits of tests and will not be achieved simply by applying an assessment instrument. Joint negotiations within teacher communities—similar to the discussions held by the teachers in this study—will likely harmonise the understanding of both criteria and judgements of student performance.

이 연구의 교사들은 [실천 공동체 접근 방식]에서와 같이, 평가 기준을 형성할 때 학생들을 공동 참여자로 초대하지 않았다. 그러나, 그들의 노력은, [부분적]으로, 평가 문제에 대한 공유된 실천 공동체로 이해될 수 있다. 개발 과정을 통해 교사들은 서로의 아이디어와 비평에 대해 마음을 터놓았고, 이는 채점 기준, 역량/역량 및 평가의 공유된 의미에 대한 협상을 가능하게 했다. [학생과 교사가 형성적 평가를 덜 심각하게 받아들이는 문제]는 [저부담 평가와 고부담 평가를 일치]시키고, [평가 지향 문화의 일부로 지속적인 교사와 동료 피드백을 포함]하려는 [교사들의 노력]에 의해 회피avoided되는 것처럼 보였다. 그러나 이러한 변경 프로세스에는 시간이 걸렸고 평가 이유의 변경도 포함되었습니다.

The teachers in this study did not invite their students to be co-participants in formulating assessment criteria, as in the community of practice approach.1926 However, their efforts can be understood, in part, as a shared community of practice around assessment matters. Through a development process, the teachers opened themselves up to each other's ideas and critiques, which enabled negotiations about a shared meaning of the grading criteria, competencies/competency and assessment. The problem of formative assessments being taken less seriously by students and teachers24 seemed to be avoided by the teachers' efforts to align low and high stake assessments and to embed continuous teacher and peer feedback as part of an assessment-oriented culture. However, this change process took time and included shifts in assessment rationales.

교사의 야망ambition은 [평가자 간 신뢰성과 표준화, 환자 조우에서 발생하는 상황적 요인 인정]과 같은 [평가의 딜레마]가 어떻게 드러났는지를 보여준다. [기준에 충실해야 한다]는 생각은 [가끔은 템플릿에서 벗어나야 한다]는 개념과 충돌했고, 그들은 채점 전에 특히 복잡한 환자 사례를 고려해야 한다는 데 동의했다. 비슷한 방식으로, Kogan 등은 교수진이 성과 등급을 만들 때 임상적 만남의 복잡성에 영향을 받는다고 보고하며, 이러한 등급 오류를 수정하기 위해 교수진이 평가 훈련을 받을 필요가 있다고 주장한다. 우리는 교수개발이 유익하다는 것에는 동의하지만, 주어진 맥락에서 무엇이 타당한지를 결정하는 과제는 여전히 남아 있다. 게다가, 그리고 이 연구에 의해 보여지는 것은, 평가 관행이 바뀌고 교사들이 그들의 '새로운 지식'을 실천으로 옮기면서, 그들은 새로운 딜레마에 직면할 수도 있다. 현재의 연구결과는, 교수개발은 [평가자들이 기준을 어떻게 이해하는지]를 다루고, [학생들의 성적 범위에 대한 공동 토론에 임상 교사를 참여시킬 필요]가 있다는 것을 암시한다. 이것이 교사의 평정을 조화시키는 것으로 보인다.

The teachers' ambitions show how dilemmas in assessment manifested, such as inter-rater reliability and standardisation, and acknowledging contextual factors arising in patient encounter. The idea of being steadfast to the criteria collided with the notion of sometimes having to deviate from the template, and they agreed that particularly complex patient cases should be taken into account before grading. In a similar way, Kogan et al.17 report that faculty members' are influenced by the complexity of clinical encounters when making performance ratings, arguing that faculty needs to be trained in assessment to modify such rating errors.17 While we agree that faculty development is beneficial, the challenge to decide what counts as valid in a given context still remains.25, 37 Moreover, and shown by this study, as assessment practices change, and teachers translate their ‘new knowledge’ into practice, they may face new dilemmas. The current findings imply that faculty development needs to address how assessors make sense of criteria and to involve clinical teachers in joint discussions on the range of acceptable student performances, which seem to harmonise teachers' ratings.

평등하고 편파적이지 않은 평가를 달성하기 위해, 이 연구의 교사들은 [학생 수행능력의 서로 다른 조각]들을 [평가 기준에 별도로 명시해야 하는지] 궁금해했다. 결과적으로, 그들은 예를 들어, [전문적 행동]을 2진법으로 판단할 수 있는 하위 범주로 분할함으로써 [전체론적 기준(역량)을 조작화]하려고 했다. 따라서, 비록 그들이 학생들의 기준에 대한 이해에 [사회 구성주의적 접근법]을 채택했지만, 교사들은 채점 기준을 개발하기 위해 다른 근거를 집행enact했다. 그러나 [심리측정학적 합리성]에 기초한 [이진 체크리스트]의 사용에만 의존하는 임상 역량의 [신뢰할 수 있는 측정]을 구성하는 어려움에 대한 의문도 있었다. [준거-참조 평가]와 관련된 비평은 교사들이 [전문적 실천에 유용한 통합적 역량]보다 [수행의 조각]을 판단할 위험이 있다고 주장한다.8 이 연구의 교사들은 [전문직업성의 글로벌 평가]는 [주관적]이며, [환자를 보호]하며, [학생에게 공평하게 하려는 그들의 의도]와 양립할 수 없다고 보았다. 

In order to achieve equal and unbiased assessments, the teachers in this study wondered whether separate pieces of student performance should be stated in the grading criteria. Consequently, they tried to operationalise holistic criteria (competency) by, for example, splitting professional behaviour into subcategories that could be judged binarily. Thus, although they adopted a social-constructivist approach to students' understanding of standards,19 the teachers enacted a different rationale to develop the grading criteria. The challenges of constructing reliable measurements of clinical competency have been acknowledged,38 though, relying solely on the use of binary checklists based on psychometric rationales has also been questioned.12, 39 The critique related to criterion-referenced assessments claims teachers risk judging pieces of performance rather than integrated competencies useful for professional practice.8 Global ratings of professionalism were seen by the teachers in this study as being subjective and incompatible with their intentions of protecting patients and being fair to students.

우리의 해석은 교사들이 [자유방임주의 접근법]과 유사하게, [정보가 없거나 암묵적인 측면에 기초한 평가를 멀리했다]는 것이다. [전체론적 판단]은 [편향되거나 잘못된 판단을 내리는 것]과 혼동될 필요가 없으며, [객관성]은 [완전한 표준화를 통해 얻은 신뢰성]과 동일하지 않다. 이 연구의 교사들이 제기한 문제는 세부 사항에서 '무언가를 잃어버렸느냐'는 것이었다. 교사가 채점을 하기 전에 학생들의 성취도를 종합할 필요가 있다는 것이 이미 정립되었다; '우리가 전체를 볼 때, 우리는 그 부분들을 고립된 채로 볼 때와는 다르게 본다'. [전문적인 보건의료 행위의 특정 성과]는 환자 안전 때문에 협상할 수 없는 것이 필요하지만, 예를 들어, 별도의 차원에서 이원적 판단이 이루어진다면 전문적인 행동의 기준은 덜 타당할 수 있다. 이 연구에서 교사들의 추론은 매우 다른 유형의 성과에 대한 기준을 공식화할 때 같은 논리를 사용하는 것이 얼마나 매력적인지를 보여주었다. 결과적으로, 통합 역량에 대한 평가가 부족할 수 있다. 이는 교사들이 [임상 역량의 표준과 등급]에서 [어떻게 서로 다른 rationale의 동시 사용을 인정할 것인지], 따라서 [이진법과 전체론적 판단의 결합을 어떻게 인정해야 하는지]를 성찰해야 함을 의미한다.

Our interpretation is that the teachers abstained from assessments that were uninformed or based on tacit aspects, similar to the laissez-faire approach.19 Holistic judgements need not be confused with making biased or invalid judgements,22 and objectivity is not equal to reliability obtained through complete standardisation.1, 39 The question the teachers in this study raised was whether ‘something was lost’ in the details. It has previously been established that teachers need to synthesize student achievements before grading; ‘When we see the whole, we see its parts differently than when we see them in isolation’4(p227). While certain performances in professional health practices need to be non-negotiable due to patient safety, criteria of professional behaviour, for example, may be less valid if binary judgements are made on separate dimensions. The teachers' reasoning in this study made visible how tempting it may be to use the same rationale when formulating criteria for performances of very different types. Consequently, the assessment of integrated competencies may be lacking. This implies that teachers should reflect on how standards and ratings of clinical competency need to acknowledge the simultaneous use of different rationales, thus a combination of binary and holistic judgements.

교육 변화와 교사의 평가 실천 발전은 종종 느리고 저항적인 것으로 여겨진다. 이 연구는 어떻게 교사들의 [채점 기준을 개발하려는 동기]가 어떤 식으로 [학생들과 함께 일하는 그들 자신의 실천]과 [환자에 대한 그들의 관심]으로부터 도출되었는지를 보여준다. 그러므로, 사회와 학생들을 위해 선행을 하려는 그들의 의지는 대학으로부터의 압력이나 투명성을 강조하는 정부 개혁과는 거의 관계가 없는 공유된 평가 관행을 만드는 동기였다.
Educational change and teachers' development of assessment practice are often regarded as slow and resistant.18, 21 This study shows how teachers' motivation to develop grading criteria was derived from their own practice working with students and their concern for patients. Thus, their willingness to do good for society and for the students was the incentive for creating a shared assessment practice, which had little to do with pressure from the university or governmental reform stressing transparency.

5 결론
5 CONCLUSION

이 연구는 공유된 평가 기준이 개발되고 실행될 때 교사의 평가 관행이 어떻게 바뀔 수 있는지에 대한 풍부한 설명에 기여한다. 이 논문에서 설명된 변화 프로세스는 [선형 모델]도, [이상적인 개발 프로세스]도 규정하지 않지만, 이 연구에서 많은 시사점을 도출할 수 있다. 이 연구결과는 교사들이 [준거와 수용 가능한 학생들의 성적 범위]에 대한 [공동 토론]을 통해 [그들의 판단에 대한 근거를 정기적으로 재평가할 필요]가 있다는 것을 암시한다. 이러한 논의는 기준 적용에 대한 이해를 조화시킬 뿐만 아니라 교원 공동체 내에서 평가와 역량에 대한 변화하는 이유를 풀어내는 것으로 보인다. 이 연구는 [동료 학습]과 [사회 구성주의 접근 방식]의 적응은 시간이 걸리고, 평가에서 [새로운 선택과 딜레마]를 만들 수 있음을 보여준다. 일부 연구자들은 [수행능력 테스트]에서 엄격함을 증가시켜야 한다고 주장하는 반면, 다른 연구자들은 [전체론적이고 건설적이며 전문적인 접근 방식]을 요구하거나, [더 긴 기간에 걸쳐 평가의 삼각 측량]을 제안합니다. 어떤 평가를 적용하든 [교사의 전문적인 판단을 담당하는 대화]가 필요하다. 이번 연구는 [평가에 대한 교사들의 시각]이 고정된 것이 아니며, 평가 기준과 그들의 판단이 [어떻게 서로 다른 rationale의 동시 사용을 인정해야 하는지] 반성해야 한다는 것을 보여준다. 따라서 [다양한 요구가 있는 환자를 포함하는 개별 학생의 수행능력]을 어떻게 다르게 판단해야 하는지 참조하면서, [이진적 판단 및 전체론적 판단]을 조합하여 적용할 필요가 있다. 우리는 개별 교사들의 견해를 넘어선 평가 관행과 교사들이 어떻게 다른 방법과 기준을 적용하는지에 대한 더 많은 연구를 환영한다.

This study contributes a rich description of how teachers' assessment practices may change when shared assessment criteria are developed and implemented. The change process illustrated in this paper neither stipulates neither a linear model nor an ideal development process, yet a number of implications may be drawn from this study. The findings imply that teachers need to regularly re-evaluate grounds for their judgements through joint discussions of criteria and the range of acceptable student performances. Such discussions seem to not only harmonise the understanding of criteria application but also unravel the shifting rationales on assessment and competency within teacher communities. This study demonstrates the adaptation of peer learning and social-constructivist approaches may take time and create new choices and dilemmas in assessment. Whereas some researchers argue for increased rigour in performance tests, others call for holistic, constructivist and professional approaches or suggest triangulation of assessments over longer periods of time. Regardless of what kind of assessments is applied, conversations that take charge of teachers' professional judgements are necessary. This study shows that teachers' views on assessment are not fixed, and they should reflect on how assessment standards and their judgements must acknowledge the simultaneous use of different rationales. Therefore, with reference to how individual student performances involving patients with various needs should to be judged differently, a combination of binary and holistic judgements needs to be applied. We welcome more research on assessment practices beyond individual teachers' views and on how teachers make sense of applying different methods and standards.

 


Med Educ. 2022 Jun;56(6):651-659.

 doi: 10.1111/medu.14789. Epub 2022 Mar 14.

 

Safeguarding fairness in assessments-How teachers develop joint practices

Affiliations collapse

Affiliations

1Department of Learning in Engineering Sciences, KTH Royal Institute of Technology, Stockholm, Sweden.

2Department of Education, Stockholm University, Stockholm, Sweden.

3Department of Neurobiology, Care Sciences and Society, Karolinska Institutet, Stockholm, Sweden.

4Department of Learning, Informatics, Management and Ethics, Karolinska Institutet, Stockholm, Sweden.

PMID: 35263464

DOI: 10.1111/medu.14789

Abstract

Introduction: In light of reforms demanding increased transparency of student performance assessments, this study offers an in-depth perspective of how teachers develop their assessment practice. Much is known about factors that influence assessments, and different solutions claim to improve the validity and reliability of assessments of students' clinical competency. However, little is known about how teachers go about improving their assessment practices. This study aims to contribute empirical findings about how teachers' assessment practice may change when shared criteria for assessing students' clinical competency are developed and implemented.

Methods: Using a narrative-in-action research approach grounded in narrative theory about human sense-making, one group including nine health professions teachers was studied over a period of 1 year. Drawing upon data from observations, interviews, formal documents and written reflections from these teachers, we performed a narrative analysis to reveal how these teachers made sense of experiences associated with the development and implementation of joint grading criteria for assessing students' clinical performances.

Results: The findings present a narrative showing how a shared assessment practice took years to develop and was based on the teachers changed approach to scrutiny. The teachers became highly motivated to use grading criteria to ensure fairness in assessments, but more importantly, to fulfil their moral obligation towards patients. The narrative also demonstrates how these teachers reasoned about dilemmas that arose when they applied standardised assessment criteria.

Discussion: The narrative analysis shows clearly how teachers' development and application of assessment standards are embedded in local practices. Our findings highlight the importance of teachers' joint discussions on how to interpret criteria applied in formative and summative assessments of students' performances. In particular, teachers' different approaches to assessing 'pieces of skills' versus making holistic judgements on students' performances, regardless of whether the grading criteria are clear and well-articulated on paper, should be acknowledged. Understanding the journey that these teachers made gives new perspectives as to how faculty can be supported when assessments of professionalism and clinical competency are developed.

발달적 발달평가 도입의 교훈: 스코핑 리뷰(Med Educ, 2020)
Lessons from the implementation of developmental progress assessment: A scoping review
Christina St-Onge1 | Élise Vachon Lachiver2 | Serge Langevin1 | Elisabeth Boileau3 | Frédéric Bernier1,2,4 | Aliki Thomas5 

 

1 소개
1 INTRODUCTION

보건직 교육(HPE)에서 역량 기반 교육(CBE)의 구현은 교육(예: 학생 중심 전략 및 감독자와 교육자 간의 코칭 관계 선호)과 평가 관행(예: 실제 평가에 보다 중점을 둔 암기 기반 검사 및 진행에 초점을 맞춘 평가)에 상당한 변화를 가져왔다. 평가 문화의 변화는 CBE로의 전환을 지원하기 위해 중요할 뿐만 아니라 교육 변화의 가장 어려운 측면 중 하나입니다.1 교육자와 관리자는 학습자가 유능한 의료 전문가로서 연습하는 데 필요한 지식, 기술 및 태도의 개발과 평가를 촉진하는 데 사용할 수 있는 전략을 구현하는 것을 목표로 한다.2, 3 그러한 전략 중 하나는 훈련생과 교수진에게 유능한 전문 실습으로 가는 길을 명시하는 로드맵을 만들고 제공하는 것이다. [명시적 경로]와 같은 [발달의 종단적 관점의 통합]은 더 나은 건강 전문가의 발전에 기여하는 것으로 생각된다. 학생들에게 예상되는 발달의 예(명시적인 로드맵)를 제공하면, 그들은 주어진 단계에서 그들이 기대하는 것과 그들의 성과를 비교할 수 있다. 이 정보는 자체 평가에 사용될 수 있으며 자체 개발에서 자율성을 높일 수 있습니다.5 따라서, 최근 몇 년 동안 교육자와 연구자들은 이 종적 관점을 개념화하고 구현했다. 이러한 관점의 일반적인 발현은 신뢰할 수 있는 전문 활동(EPA)과 이정표이다.

The implementation of competency-based education (CBE) in health professions education (HPE) has resulted in substantial changes in teaching (eg, favouring student-centred strategies and a coaching relationship between supervisor and trainee) and assessment practices (eg, more emphasis on authentic assessment versus rote memory-based examinations and assessment focused on progression). A change in assessment culture is not only crucial to support the transition to CBE, but it also one of the most challenging aspects of educational change.1 Educators and administrators aim to implement strategies that can be used to foster the development and assessment of knowledge, skills and attitudes required by their learners to practice as competent health professionals.2, 3 One such strategy is to create and provide roadmaps to trainees and faculty members that make explicit the pathway to competent professional practice. The integration of a longitudinal perspective of development -such as an explicit pathway - is thought to contribute to the development of better health professionals.4 When students are provided with an exemplar of their expected development (explicit roadmap), they can compare their performance to what is expected of them at their given stage.4, 5 This information can be used in their self-assessment and increases their autonomy in their own development.5 Thus, in recent years, educators and researchers have conceptualised and implemented this longitudinal perspective. Common manifestations of this perspective are the entrustable professional activities (EPAs) and milestones.3, 6-8

일반적으로 CBE의 구현으로 인한 [관찰된 교육학적 문화의 변화], 그리고 보다 구체적으로 [종단적 발달 경로]는 평가의 다양한 측면에 영향을 미친다. 역량 기반 교육은, 시기적절하고 직접적인 지속적인 직장 기반 평가를 포함하는, 평가에 대한 총체적이고 종적인 접근 방식과 연관되어야 한다.9 역량의 발달 진행을 촉진하기 위해 평가는 이러한 발달 경로에 매핑되어야 한다. 확립된 progression 경로에서 역량을 벤치마킹하면, 학생들의 역량 강화와 자체 개발에 대한 투자를 촉진할 수 있다. 또한 발달 경로에 대한 자신의 진행 상황에 대한 피드백은 전문적 전문 지식의 개발을 촉진하고 궁극적으로 의료의 질을 향상시킨다.10
The observed changes in pedagogical culture due to the implementation of CBE in general, and longitudinal developmental pathways more specifically, have consequences on various aspects of assessment. Competency-based education should be associated with a holistic and longitudinal approach to assessment, involving timely, direct and ongoing workplace-based assessment.9 To facilitate the developmental progression of competence, assessments should be mapped onto these developmental pathways. The benchmarking of competence on an established path of progression could promote students’ empowerment and investment in their own development. In addition, feedback about one's progress on a developmental pathway fosters the development of professional expertise,4 and ultimately increases quality of health care.10

[발달 경로에 매핑된 평가의 구현]에 관심이 커지고 있으며, DPA(Developmental Progress Assessment) 등으로 교육생 및 교수진에게 지침을 제공하는 데 사용된다. 그러나 기대한 이익을 얻기 위해 구현에 대해 이해해야 할 점이 많다. DPA를 성공적으로 구현하기 위한 첫 번째 필수 단계는 문헌에서 DPA가 어떻게 정의되고 개념화되어 있는지, 주요 목표, 관찰된 결과 및 구현에서 얻은 교훈이 무엇인지, 그리고 DPA가 어떻게 실행되거나 교육적 맥락에서 적용되었는지 더 잘 이해하는 것이다. 따라서 이 논문의 목적은 DPA 구현에 관한 문헌의 깊이와 폭을 매핑하는 것이다.
There is great interest in the implementation of assessment mapped on developmental pathways and used to provide guidance to trainees and faculty members, such as Developmental Progress Assessment (DPA). However, there is much that remains to be understood about its implementation to reap its anticipated benefits. The first and necessary step towards successful implementation of DPA is to better understand how DPA is defined and conceptualised in the literature, what are its major goals, observed outcomes as well as lessons learned from the implementation, and how it has been executed or applied across educational contexts. Thus, the purpose of this paper is to map the depth and breadth of literature on the implementation of DPA.

2가지 방법
2 METHODS

우리는 우리의 주요 질문을 다루기 위해 지식 합성의 한 형태인 범위 연구를 수행했다. 범위 검토는 해당 영역에서 어떤 연구가 수행되었는지, 또는 개념이 다양한 출처에 걸쳐 논의 또는 개념화되었는지를 모를 때 새로운 연구 영역 또는 신흥 영역에서 문헌의 초상화를 작성하는 데 유용하다. (예: 회색 문헌, 경험적 문헌, 웹 사이트). 범위 지정 연구를 수행하는 주된 이유는 네 가지입니다.

  • (a) 주어진 분야에서 연구 활동의 범위, 범위 및 성격을 조사한다.
  • (b) 체계적인 검토를 수행할 가치와 적절성을 결정한다.
  • (c) 연구 결과를 요약하고 배포한다.
  • (d) 연구 공백을 식별한다. 

We conducted a scoping study, a form of knowledge synthesis, to address our main question. Scoping reviews are useful for creating a portrait of the literature in a new or emerging area of study when it is unclear what research has been done in that area, or how a concept has been discussed or conceptualised across various sources (eg, grey literature, empirical literature, websites).11 There are four main reasons for conducting a scoping study:

  • (a) to examine the extent, range and nature of research activity in a given field;
  • (b) to determine the value and appropriateness of undertaking a systematic review;
  • (c) to summarise and disseminate research findings, and
  • (d) to identify research gaps.

본 논문에서 보고된 검토는 목표 (a), (b) 및 (c)에 따라 수행되었다. 우리는 Arcsey와 O'Malley11의 범위 검토에 대한 6단계 방법론적 프레임워크를 따랐다.

The review reported in this paper was guided by objectives (a), (b) and (c). We followed the six-step methodological framework for scoping reviews by Arksey and O’Malley11:

  • 1 연구 질문의 식별
  • 2 관련 연구 확인
  • 3 스터디 선택
  • 4 데이터 도표 작성
  • 5 결과 수집 및 보고
  • 6 잠재적 이해 관계자와 협의(선택적 단계)
  • 1 Identifying the research question;
  • 2 Identifying relevant studies;
  • 3 Selecting studies;
  • 4 Data charting;
  • 5 Collating and reporting results, and
  • 6 Consulting with potential stakeholders (optional step).

6단계는 검토의 주요 목적이 아니었고 시기상조라고 여겨졌기 때문에 실행하지 않았다. 나머지 다섯 단계는 아래에 각각 설명되어 있습니다.
We did not execute Step 6 as this was not the major purpose of our review and was considered premature. Each of the other five steps is described below.

2.1 1단계: 조사 질문 식별
2.1 Step 1: Identifying the research question


검토를 안내하는 주요 연구 질문은 '고등교육에서 DPA가 CBE의 맥락에서 어떻게 구현되는가?'였다. 특히, 우리는 다음을 목표로 삼았습니다.

  • 구현된 DPA의 특성을 설명합니다.
  • DPA 구현에 대한 잠재적 촉진제 및 장벽을 식별한다.
  • DPA에 대한 잠재적 결과 및 유효성의 증거를 조사합니다.

The main research question guiding the review was ‘How is DPA implemented in the context of CBE in higher education?’ Specifically, we aimed to:

  1. Describe the characteristics of implemented DPA.
  2. Identify potential facilitators and barriers to the implementation of DPA.
  3. Explore potential outcomes and evidence of validity for DPA.

2.2 2단계: 관련 연구 파악
2.2 Step 2: Identifying relevant studies

첫 번째 저자(CS-O)는 학술 사서와 함께 사용할 수 있는 키워드와 검색을 통해 식별되어야 할 핵심 기사 3, 12-15에 대한 팀원들과의 협의에 따라 측정 및 평가 문헌에 대한 광범위한 지식을 바탕으로 검색 전략(부록 S1)을 정교하게 설명했다.
Working with an academic librarian, the first author (CS-O) elaborated a search strategy (Appendix S1) based on her extensive knowledge of the measurement and assessment literature, following a consultation with team members about potential key words to use and key articles3, 12-15 that should be identified through the search.

우리는 처음에 가장 적절한 전략, 즉 가장 포괄적이었던 전략을 식별하기 위해 서로 다른 키워드 및 키워드 조합을 사용하여 네 가지 다른 파일럿 검색을 수행했다(즉, 빠른 검토를 기반으로 제외된 논문의 비율을 가장 낮게 함). 팀의 콘텐츠 전문가(CS-O)가 대상 논문으로 식별한 3, 12-15개의 주요 기사를 사용하여 검색 전략을 테스트했다. 이 과정을 통해 핵심 기사가 파악되지 않으면 검색 전략을 수정했다.
We initially conducted four different pilot searches using different keywords, and keyword combinations, to identify the most appropriate strategy, that is, the strategy that was the most inclusive (ie, yielding the lowest percentage of excluded papers on the basis of a quick review). We tested the search strategies using identified3, 12-15 key articles that the content experts (CS-O) on the team identified as being target papers. If a key article was not identified through this process, the search strategy was revised.

최종 검색은 다음 데이터베이스에 적용되었다: ERIC (교육 자원 정보 센터); 교육 출처; Ovid; PubMed - MEDLINE; CINAHL(간호 및 제휴 보건 문헌에 대한 누적 지수); 싸이크인포, 에루딧. 이 조사는 2017년 6월 20일에 실시되었다. 포함되기 위해서는 학습자 평가, 진행 상황, 종방향 모니터링 및 CBE에 관한 기사가 포함되어야 했다. 평가의 내용은 지식, 기술, 태도 또는 학습자가 인식하는 효율성일 수 있다. 언어(프랑스어 및 영어 기사만 포함), 임상 컨텍스트(즉, 진단), 아동 발달, 사전 학습 설계, 커리큘럼 개발, 라이센스 평가, 시점 평가 또는 정규 교육 시스템 외부에 기반한 기사를 제외했다. 
The final search was applied to the following databases: ERIC (Education Resources Information Center); Education Source; Ovid; PubMed - MEDLINE; CINAHL (Cumulative Index to Nursing and Allied Health Literature); PsycINFO, and Érudit. This search was conducted on 20 June 2017. To be included, the articles needed to be on learner assessment, in the context of progression, longitudinal monitoring and in CBE. The content of the assessment could be knowledge, skills, attitudes or learner perceived efficacity. We excluded articles based on these criteria: language (only including French and English articles), clinical contexts (ie, diagnosis), child development, pre-post study designs, curriculum development, licensure assessment, point in time assessment or outside a formal education system.

2.3 3단계: 연구 선택
2.3 Step 3: Study selection

두 팀 구성원(CS-O 및 EVL)은 90% 합의에 도달할 때까지 포함 및 제외 결정을 위해 700개(28%)의 제목과 요약을 심사했다. 16 의견 불일치의 경우, 그들은 다양한 관점의 이유인 추상적 내용을 논의했고 합의에 도달했다. 일단 90%의 합의에 도달하면, 그들은 나머지 논문들을 나눠서 요약본을 별도로 심사했다(n = 898개). 한 검토자가 논문을 포함하거나 제외하는 것에 대한 결정에 도달할 수 없는 경우, 그들은 '아마도'로 추상화를 코드화한 다음, 두 번째 검토자에게 (포함되거나 제외된) 추상화를 코드화하도록 요청하였다. 팀 구성원(CS-O 및 EVL)이 모두 결정할 수 없는 경우, 제3의 검토자(EB)는 요약을 포함하거나 제외하는 것에 대해 읽고 결정하도록 요청받았다. 포함 및 제외 기준은 부록 S1에 제시되어 있다.

Two team members (CS-O and EVL) screened 700 (28%) titles and abstracts for inclusion and exclusion decisions until a 90% agreement was reached.16 In case of a disagreement, they discussed the abstract, the reasons for the varied perspective and came to a consensus. Once they reached 90% of agreement, they divided the remaining papers and screened the abstracts separately (n = 898 each). If one reviewer could not reach a decision about including or excluding a paper, they coded the abstract as ‘maybe’ and then asked the second reviewer to code the abstract (as included or excluded). If both team members (CS-O and EVL) could not decide, a third reviewer (EB) was asked to read and decide about including or excluding the abstract. Inclusion and exclusion criteria are presented in Appendix S1.

2.4 4단계: 데이터 차트 작성
2.4 Step 4: Data charting

초기 데이터 추출 양식은 CS-O가 그녀의 광범위한 평가 경험을 바탕으로 개발했다. 양식의 첫 번째 버전은 모든 팀 구성원(CS-O, EVL, SL, EB, FB 및 AT)과 검토 및 논의되었습니다. Microsoft® Excel(Microsoft Corporation, Redmond, WA, USA)에 탑재된 수정된 양식은 CS-O, EB, FB, SL 및 EVL에 의해 5개의 논문에 대해 시범 테스트되었습니다. 선명도를 높이기 위해 추출 그리드를 변경했습니다. 처음에는 4가지 요소(주요 결론, 시사점 또는 결과, 강점과 한계)로 구성되었고 7가지 요소(DPA의 원리, 개념화, 고려사항, 주요 결론, 시사점 또는 결과, 강점과 한계)로 구성되도록 수정되었다.
An initial data extraction form was developed by CS-O based on her extensive experience in assessment. The first version of the form was reviewed and discussed with all team members (CS-O, EVL, SL, EB, FB and AT). The revised form, mounted in Microsoft® Excel (Microsoft Corp., Redmond, WA, USA), was pilot tested by CS-O, EB, FB, SL and EVL on five papers. Changes to the extraction grid were made in order to increase clarity. Initially, it was comprised of four elements (major conclusions, implications or outcomes, strengths and limits) and was modified to be comprised of seven elements (principles of DPA, conceptualisations, considerations, major conclusions, implications or outcomes, strengths and limits).

양식이 완성되면, 두 명의 팀 구성원(CS-O 및 EVL)이 무작위로 선정된 35개의 논문(선택된 총 논문 수의 20%)에서 데이터를 추출하는 작업을 진행했다. 두 팀 구성원 간의 교정의 일환으로 각 구성원은 좋은 추출 예와 나쁜 추출 예제를 문서화한 저널을 작성 및 유지했습니다. 이 과정은 반복적으로 수행되었다. 즉, 이 팀 구성원(CS-O 및 EVL)은 추출된 5-10개의 기사마다 만나 추출에 대해 논의하였다. 추출에 대한 양호한 합의를 달성한 후, 이 두 팀 구성원은 나머지 기사를 별도로 선별하고 추출했다(CS-O의 경우 n = 58, EVL의 경우 57).

Once the form was finalised, two team members (CS-O and EVL) proceeded to extract the data from 35 randomly selected papers (20% of the total number of papers selected). As part of the calibration between the two team members, each member compiled and maintained a journal that documented good and bad extraction examples. This process was done iteratively, that is, these team members (CS-O and EVL) met and discussed their extractions at every 5-10 extracted articles. When they achieved a good agreement for extraction, these two team members then screened and extracted the remaining articles separately (n = 58 for CS-O and 57 for EVL).

2.5 5단계: 결과 수집 및 보고
2.5 Step 5: Collating and reporting results

우리는 각 보유 논문에 보고된 데이터에 대한 수치 분석과 주제 분석을 모두 수행했다. 먼저, 우리는 아카이브에서 추출한 수치 데이터를 분석했고, 그 빈도를 출판 연도, 국가, 교육생의 훈육 및 학습 수준과 같은 데이터에 사용했다. 기술 통계는 spss Version 21.0(IBM Corporation, Armonk, NY, USA)을 사용하여 수행되었습니다.16
We conducted both a numerical and thematic analysis of the data reported in each retained paper. First, we analysed the numerical data extracted from our archive whereby we used frequencies to data such as: year of publication, country, and trainees’ discipline and study level. Descriptive statistics were conducted using spss Version 21.0 (IBM Corp., Armonk, NY, USA).16

Arcsey와 O'Malley, 11 Levac 외 연구진, 17 및 Thomas 외 18의 권고에 따라 정성적 데이터에 대한 주제 분석을 수행하고 Dedoose(Dedoose, Manhattan Beach, CA, USA)18을 사용하여 데이터를 관리했다. Levac 등 17은 Arcsey와 O'Malley 11이 제안한 주제 분석이 어떤 사람들에게는 질적 데이터 분석 기법과 더 유사할 수 있다고 말한다. 우리는 Arcsey와 O'Malley11에서 제안된 용어를 그들의 프레임워크가 우리의 방법론적 선택을 안내했기 때문에 존중하기로 결정했다. 이 범위 지정 연구의 목표는 DPA 구현에 대한 문헌의 깊이와 폭을 매핑하는 것이었다. 구현 프로세스 중에 종종 발생하는 요인에 대한 우리의 발견을 명확히 했다. 19, 20 분석 자체의 경우, 수석 조사관(CS-O)은 기사의 50%를 코딩하고 코딩 트리를 구성했다. CS-O에 의해 구성된 코딩 트리를 사용하여 독립적으로 기사를 코딩한 세 명의 팀 구성원(EB, SL 및 FB)에게 동일한 50%가 분배되었다. CS-O와 팀 구성원들 앞에서 주제 분석의 예비 주제를 논의하여 코딩 트리를 개선하였다. 나머지 기사는 최종 코딩 트리를 사용하여 PI에 의해 분석되었으며, 결과 테마는 모든 팀 구성원(CS-O, EVL, SL, EB, FB 및 AT)에 의해 검토되었다. 추가 토론이 이어졌고 최종 주제 집합으로 이어졌다. 

As per recommendations from Arksey and O’Malley,11 Levac et al,17 and Thomas et al18 we conducted a thematic analysis of the qualitative data and used Dedoose (Dedoose, Manhattan Beach, CA, USA)18 to manage the data. Levac et al17 state that the thematic analysis proposed by Arksey and O’Malley11 may be more akin, for some, to a qualitative data analytical technique. We decided to respect the terminology proposed in Arksey and O’Malley11 as their framework guided our methodological choices. Our goal for this scoping study was to map the depth and breadth of the literature on the implementation of DPA, we articulated our findings around the factors that often come into play during an implementation process.19, 20 For the analysis itself, the principal investigator (CS-O) coded 50% of the articles and constructed a coding tree. The same 50% was distributed amongst three team members (EB, SL and FB), who independently coded the articles using the coding tree constructed by CS-O. CS-O and all in front of team members discussed the preliminary themes from the thematic analysis, which resulted in a refining of the coding tree. The remaining articles were analysed by the PI using the final coding tree and the resulting themes were reviewed by all team members (CS-O, EVL, SL, EB, FB and AT). Additional discussion ensued and led to the final set of themes.

3 결과
3 RESULTS

PRISMA(체계적인 검토 및 메타 분석을 위한 선호 보고 항목) 흐름도는 그림 1에 제시되어 있다. 프랑스어나 영어 이외의 언어로 된 기사, 중복을 제거한 후, 2494편의 논문이 추상 분석을 위해 포함되었다. 포함 및 제외 단계가 끝날 때, 포함 기준을 충족하는 171편의 논문이 유지되었다. 전체 논문 검토 후, 우리는 분석에 총 56개의 기사를 포함했다(그림 1 참조).
The PRISMA (preferred reporting items for systematic reviews and meta-analyses) flow diagram is presented in Figure 1. After eliminating duplicates, articles in languages other than French or English, 2494 papers were included for abstract analysis. At the end of the inclusion and exclusion phase, 171 papers that met the inclusion criteria were retained. After full paper review, we included a total of 56 articles in the analysis (see Figure 1).

3.1 수치 데이터 기술 결과
3.1 Descriptive results for numerical data

그림 2에서 2014년부터 2017년까지 39개의 기사(우리 말뭉치의 70%를 대표하는)가 발행된 가운데 개발 진행도 평가에 관한 기사가 증가했다.
In Figure 2 an increase in articles published on the topic of developmental progress assessment was seen with 39 articles (representing 70% of our corpus) published between 2014 to 2017.

 

그림 3과 같이 대부분의 기사가 미국에서 출판되었으며(n = 31개 기사, 55%), 캐나다와 영국(n = 6개 기사, 11%)이 그 뒤를 이었다.
The majority of articles were published in the United States (n = 31 articles; 55%), followed by Canada and the United Kingdom (n = 6 articles each; 11%) as seen in Figure 3.

 

표 1은 아카이브에 포함된 대부분의 기사가 HPE 문헌에서 가져온 것임을 보여준다. 즉, 기사의 71%가 의학 교육(n = 41), 치과(n = 4), 약학 및 건강 관리(각각 n = 2) 순이었다. 대학원 연구는 아카이브에서 가장 자주 접하는 연구 수준이었고(n = 28; 50%) 학부 연구는 아카이브의 20%를 차지했다(n = 11개 기사).
Table 1 shows that most of the articles included in our archives were from the HPE literature; that is, 71% of the articles were situated in medical education (n = 41), followed by dentistry (n = 4), pharmacy and health management (n = 2 each). Postgraduate studies was the study level most often encountered in our archive (n = 28; 50%), whereas undergraduate studies represented 20% of our archive (n = 11 articles).

 

우리 아카이브에 있는 56개의 기사 중 12개는 연구 목적을 밝히지 않았다. 표 2에 나타난 바와 같이, 가장 일반적인 네 가지 목적은 다음과 같다: 

  • (a) 새로운 종방향 평가 전략 또는 도구에 대한 타당화 프로세스를 설명합니다(n = 14; 32%).
  • (b) 학생의 progression를 평가하는 데 사용되는 교육 혁신을 설명한다(n = 8; 18%).
  • (c) 새로운 평가 또는 도구 개발 및 구현(n = 7; 16%)
  • (d) CBE 원칙에 부합하는 커리큘럼을 개발한다(n = 7; 16%)

Of the 56 articles in our archive, 12 did not state a study purpose. As shown in Table 2, the four most common stated purposes were to:

  • (a) describe a validation process for a novel longitudinal assessment strategy or tool (n =14; 32%);
  • (b) describe an educational innovation used to assess students’ progression (n = 8; 18%);
  • (c) develop and implement a novel assessment or tool (n = 7; 16%), and
  • (d) develop a curriculum aligned with CBE principles (n = 7; 16%).

 

 

DPA를 위한 특정 평가 도구(일반적인 아이디어, EPA와 마일스톤의 개발 및 구현, 또는 임상 역량 위원회 프로세스와는 반대로)를 다룬 29개의 논문에서 우리는 다양한 도구와 평가 컨텍스트를 관찰했다. 가장 일반적인 도구는 주어진 역량 또는 하위 역량에 대한 개발 수준을 문서화하는 척도(n = 9)였으며, 평균 4.8의 2개에서 10개의 서로 다른 앵커를 가지고 있었다. 다른 인기 있는 도구로는 마일스톤(n = 6), 포트폴리오(n = 3) 및 자기효능감척도(n = 3)가 있습니다. 발달과 진행을 결정하기 위해 임상적 맥락(n = 6), 표준화된 맥락(n = 5) 또는 특정 과제(n = 5)에서 가장 자주 수행이 관찰되었다(표 3).

Of the 29 papers that addressed specific assessment tools for DPA (as opposed to general ideas, development and implementation of EPAs and milestones, or even clinical competence committee processes), we observed different tools and assessment contexts.

  • The most common tools used were scales (n = 9) to document the level of development for given competencies or subcompetencies, they had from two to 10 different anchors with an average of 4.8. Other popular tools included milestones (n = 6), portfolios (n = 3) and self-efficacy scales (n = 3).
  • To determine development and progress, the performances were observed most often in a clinical context (n = 6), in a standardised context (n = 5) or for a specific task (n = 5) (Table 3).

 

 

3.2 정성적 데이터에 대한 기술 결과
3.2 Descriptive results for qualitative data

우리는 질적 주제 분석에서 DPA의 구현에 대한 우리의 이해를 알릴 수 있는 7가지 주요 주제를 식별했다.

  • (a) DPA의 기본 목표
  • (b) DPA에 대한 정보 출처
  • (c) DPA 구현에 대한 장벽
  • (d) DPA 구현의 장벽 또는 촉진자로 작용할 수 있는 상황별 요인
  • (e) DPA 구현 촉진자
  • (f) DPA 구현의 관찰된 결과
  • (g) 타당성을 입증하는 증거

We identified seven major themes in our qualitative thematic analysis that can inform our understanding of the implementation of DPA:

  • (a) underlying aims of DPA;
  • (b) sources of information for DPA;
  • (c) barriers to the implementation of DPA;
  • (d) contextual factors that can act as barriers or facilitators to the implementation of DPA;
  • (e) facilitators to the implementation of DPA;
  • (f) observed outcomes of the implementation of DPA, and
  • (g) documented validity evidence.

각 테마는 여러 하위 테마로 구성되었으며 8-38개의 서로 다른 출처(기사)에 의해 지원되었다. 9개의 기사가 오직 하나의 테마로 제시되었다:

  • 34개의 다른 출처가 지원하는 주제 '실제 결과'의 4개
    26개의 다른 출처가 지원하는 '정보 제공'의 2개
    25개의 다른 출처가 지원하는 '기본 목표'의 2개
    9개의 다른 출처에 의해 지원되는 'model' 중 1개. 

주제, 하위 주제 및 설명은 아래에 인용문과 함께 제시되어 있습니다..

Each theme was comprised of several subthemes, and supported by 8-38 different sources (articles). Nine articles were present in only one theme:

  • four in ‘observed outcomes’ a theme supported by 34 other sources;
  • two in ‘sources of information’ supported by 26 other sources;
  • two in ‘underlying aims’ supported by 25 other sources, and
  • one in ‘barriers’ supported by nine other sources. 

Themes, subthemes and their descriptions are presented below with supporting quotes.

 

3.3 주제 1: DPA의 기본 목표
3.3 Theme 1: Underlying aims to DPA

우리는 DPA의 구현과 관련된 두 가지 주요 목표를 식별했다. (a) 교육생의 진행과 발달에 대한 보고와 (b) 더 나은 전문직으로서의 개발에 기여하기 위한 것이다. DPA의 구현의 근본적인 동기는 [역량을 향한 구체적인 발전 경로]가 주어졌을 때 [교육생과 프로그램에 교육생의 발전 및 발전에 대한 보고서를 제공]하는 것이다. 21-40 교육생에 대한 보고서를 제공하는 것 외에도, DPA는 평가, 피드백, 가이드를 통해 학습 기회를 제공함으로써, 더 나은 직업의 발전에 기여할 것으로 기대된다.
We identified two main goals associated with the implementation of DPA:

  • (a) to report on trainees’ progress and development, and
  • (b) to contribute to the development of better professionals.

An underlying motivation to the implementation of DPA is to provide trainees and programmes with a report on trainees’ progression and development given a specific established path of progression towards competency.21-40 In addition to providing a report on trainees’ progression, DPA is expected to contribute to the development of better professionals by providing learning opportunities through assessment, feedback and guidance.

3.4 주제 2: DPA를 위한 정보의 출처
3.4 Theme 2: Sources of information for DPA

우리는 DPA(연수생의 진행과 발전을 문서화하는 방법)의 정보 소스에 기여하는 두 가지 주요 요소를 식별했다. 즉 (a) 학생에 대한 직접적인 관찰과 (b) 미리 설정된 진행 경로. 저자들이 역량 기반 의학교육(CBME)의 맥락에서 DPA의 구현을 논의할 때, 그들은 학생들의 성과에 대한 종방향 문서화와 평가가 학생에 대한 직접 관찰에 의해 informed 되어야 한다는 중요성을 내세웠다. 3, 15, 27, 28, 33, 35, 38, 41 우리가 자주 관찰한 두 번째 요소는 사전 설정된 진행 경로를 통해 DPA에 알려야 할 필요성
We identified two main elements contributing to the sources of information for DPA (how to document trainees’ progress and development) namely:

  • (a) the direct observation of students, and
  • (b) a pre-established path of progression.

When authors discussed the implementation of DPA in the context of competency-based medical education (CBME), they put forward the importance that the longitudinal documentation and assessment of students’ performance be informed by direct observation of students.3, 15, 27, 28, 33, 35, 38, 41 The second element that we frequently observed was the necessity that DPA be informed by a pre-established path of progression.15, 21, 23, 25-27, 30, 32-38, 41-52

3.5 주제 3: DPA의 구현에 대한 장벽
3.5 Theme 3: Barriers to the implementation of DPA

우리는 DPA 구현에 대한 네 가지 주요 장벽 또는 과제를 식별했다. (a) 추가 물류 부담, (b) 경험적 데이터 또는 증거 지원 관행 부족, (c) 관찰 기회를 찾는 도전, (d) 시간이 필요하다. 프로그램에 대한 이러한 추가 부담은 DPA 구현에 대한 장벽으로 간주될 수 있다. 일부 저자들은 경험적 데이터 또는 증거 지원 관행의 부족을 강조하며, 경우에 따라 DPA 구현에 대한 장벽으로 인식될 수 있다고 가정한다. 교육생을 관찰할 시간과 기회도 DPA의 구현에 있어 중요한 장벽으로 간주되었다.

We identified four main barriers or challenges to the implementation of DPA:

  • (a) The additional logistical burden;
  • (b) lack of empirical data or evidence-supported practices;
  • (c) challenge of finding observation opportunities, and
  • (d) time it requires.

These additional burdens on the programmes could be seen as barriers to the implementation of DPA.33, 38, 47, 53-56 Some authors highlight the lack of empirical data or evidence-supported practices, and hypothesise that it can be, in some instances, perceived as a barrier to the implementation of DPA.38, 47, 56, 57 Time and opportunities to observe trainees were also seen as important barriers to the implementation of DPA.15, 33, 58

3.6 주제 4: DPA 구현에 긍정적 또는 부정적 영향을 미칠 수 있는 상황적 요인
3.6 Theme 4: Contextual factors that can positively or negatively influence implementation of DPA

우리는 DPA 구현에 장벽 또는 촉진자로 작용할 수 있는 세 가지 상황적 요인을 식별했다. (a) 적절한 평가 도구 또는 전략, (b) 교수진 개발, (c) 지역 문화. DPA를 구현하기 전에 [적절한 평가 도구 또는 전략이 제공되었을 때], 이를 촉진자로 간주했습니다.3 그러나 이러한 도구와 전략의 개발에 대한 비용과 자원은 DPA의 구현에 대한 장벽으로 간주되었다.38 평가 도구 또는 전략이 DPA의 구현에 적절하거나 제공되지 않은 경우, 이는 DPA의 구현에 대한 장벽으로 간주되었다.38, 43, 47 이러한 평가 도구와 전략에 대한 기대치는 높았고, 충족되지 않을 때, 좌절하게 만들었다.
We identified three contextual factors that could act as either a barrier or facilitator to the implementation of DPA:

  • (a) appropriate assessment tools or strategies;
  • (b) faculty development, and
  • (c) local culture.

When appropriate assessment tools or strategies were made available before the implementation of DPA, this was seen as a facilitator.3 Costs and resources to the development of these tools and strategies, however, were seen as barriers to the implementation of DPA.38 If the assessment tools or strategies were not appropriate or available at the implementation of DPA, this was seen as a barrier to its implementation.38, 43, 47 Expectations towards these assessment tools and strategies are high, and when not met, they lead to frustrations.33, 47, 51, 54(p.2)


DPA의 구현에 대한 장벽 또는 촉진자로 볼 수 있는 두 번째 상황적 요인은 교수진에게 제공되는 교육 기회이다. 교수개발이 DPA의 구현 전 또는 구현 중에 계획되고 전개되었을 때, 이는 DPA의 구현에 대한 촉진자로 간주되었다. DPA의 구현에 앞서서 교수개발을 출시하는 것이 바람직하게 보였지만, 많은 저자들은 이것이 프로그램에 대한 추가적인 부담이라는 사실을 강조했고, 그들은 DPA의 구현에 대한 장벽으로 볼 수 있었다.
A second contextual factor that could be seen as either a barrier or facilitator to the implementation of DPA is the training opportunities provided to faculty members.21, 38, 54, 56, 58, 59 When faculty development was planned and rolled out before or during the implementation of DPA, this was seen as a facilitator to the implementation of DPA.58 Though the roll-out of faculty development prior to the implementation of DPA was seen as favourable, many authors highlighted the fact that this was an additional strain on programmes, who could view it as a barrier to the implementation of DPA.21, 38, 56

마지막으로, DPA의 구현에 장벽 또는 촉진자로 작용할 수 있는 중요한 기여 요소는 [지역 문화]였다. 저자들은 학습의 평가(평가의 전통적인 사용)에서 학습을 위한 평가(개발 촉진에 사용되는 평가)로 이동하려면 중요한 변화가 필요하다고 강조했다. 향토 문화로 DPA가 지역 문화와 잘 일치하는 경우, DPA는 구현의 촉진자로 간주되었습니다.54 그러나, 일부 경우에는 DPA가 평가 관행에 상당한 변화를 요구했기 때문에 구현에 대한 장벽으로 간주될 수 있습니다.54, 56

Finally, an important contributing factor that could act as either a barrier or facilitator to the implementation of DPA was the local culture.21, 28, 35, 38, 54 Authors highlighted that moving from assessment of learning (traditional use of assessment) to assessment for learning (assessment used to promote development) requires an important shift in local culture. In instances where DPA aligned well with the local culture, it was seen as a facilitator to its implementation.54 However, in some instances, DPA required a significant shift in assessment practices and could thus be seen as a barrier to its implementation.54, 56

3.7 주제 5: 촉진자
3.7 Theme 5: Facilitators

우리는 DPA의 세 가지 주요 촉진 요인을 식별했다. (a) 구현 컨텍스트에서 제공되는 유연성, (b) CBME의 동시 구현, (c) 구현하기 전에, 다가올 변화에 대한 컨텍스트와 인력의 준비 등. 우리는 아카이브에서 DPA의 구현이 유연성을 제공할 때 촉진될 수 있음을 관찰했다. 즉, 운영화와 구현이 엄격하게 사전 정의되지 않았을 때 DPA를 구현하기가 더 쉬웠다. CBME가 도입되는 동안 DPA의 구현은 또한 평가 관행에 변화의 기회를 제공했기 때문에 상황적 요인으로 간주되었다. 마지막으로, DPA를 시행하기 전에 맥락과 인력의 준비가 중요한 촉진자로 간주되었다.

We identified three main facilitators to the implementation of DPA:

  • (a) the flexibility offered in the context of the implementation;
  • (b) the simultaneous implementation of CBME, and
  • (c) the preparation of the context and people for the upcoming changes, prior to the implementation of DPA.

We observed, in our archive, that the implementation of DPA could be facilitated when it provided flexibility. That is, it was easier to implement DPA when the operationalisation and implementation were not rigidly pre-defined.37, 38, 54 The implementation of DPA during the roll-out of CBME was also seen as a facilitating contextual factor as it provided an opportunity for change in assessment practices.26, 47, 54, 60 Lastly, the preparation of the context and people prior to the implementation of DPA was seen as an important facilitator.21, 25, 26, 33, 37, 54, 58, 61

3.8 주제 6: DPA수행의 관찰된 성과이다.
3.8 Theme 6: Observed outcomes of the implementation of DPA

아카이브에 있는 56개의 기사 중 총 42개는 DPA 구현의 결과를 제공했으며, 여기에는 다음이 포함되었다. 

  • (a) 피드백 촉진,
  • (b) 교정조치가 필요한 전공의 확인,
  • (c) 더 나은 수습 평가 및 프로그램 평가,
  • (d) 진행 상황 모니터링 수단,
  • (e) 명시적 기대치 로드맵

A total of 42 of the 56 articles in our archive provided outcomes from the implementation of DPA, which included:

  • (a) facilitated feedback;
  • (b) identification of residents who need remediation;
  • (c) better trainee assessment and programme evaluation;
  • (d) means to monitor progress, and
  • (e) a road map of explicit expectations.

DPA 구현의 일반적인 긍정적인 결과는 교육생에 대한 피드백이었다. 또한, 몇몇 저자들은 DPA의 구현이 재교육이 필요한 교육생을 식별할 수 있는 기회를 제공했다고 보고했다. 전반적으로, DPA의 시행은 더 나은 연수생 평가와 프로그램 평가를 위한 기회로 간주되었다. DPA는 또한 훈련생들의 진행과 그들의 전문적 역량의 개발을 모니터링하는 수단을 제공하는 것으로 간주되었다. 마지막으로, DPA는 교육생들이 무엇을 성취했고 그들 앞에 무엇이 남아 있는지를 묘사하기 위해 무엇을 사용할 수 있는지에 대한 명시적인 기대의 로드맵으로 보여졌다. 

A common positive outcome of DPA implementation was the facilitated feedback to trainees.22, 25, 29, 30, 32, 37, 47, 49, 54-56, 58, 62-64 In addition, several authors reported that the implementation of DPA provided the opportunity to identify trainees who require remediation.22, 27, 29, 30, 36, 38, 43, 52, 54, 55, 63, 65, 66 Overall, the implementation of DPA was seen as an opportunity for better trainee assessment and programme evaluation.30, 39, 41, 46, 47, 49, 54, 55, 58, 61-65, 67 DPA was also seen as providing a means to monitor trainee progress and the development of their professional competency.21-24, 27, 29, 30, 32, 33, 37, 39, 40, 46, 48, 50, 54, 60, 65, 68 Lastly, DPA was seen as a road map of explicit expectations of what could be used by trainees to picture what they have accomplished and what is left in front of them.

DPA 구현을 위해서는 [명확한 사전 설정된 경로 제공]이 필요하지만, 구현 시 필요하지 않았다면 만들어지지 않았을 수 있어 구현에 긍정적인 결과물로도 평가된다. 이는 전공의 스스로 전문성 개발을 agency를 갖게하겠다는 전략으로도 읽힌다. 오직 두 개의 기사만이 DPA 구현과 관련된 부정적인 결과를 제시한다. 타르디프와 두부아에서 저자들은 교수진 개발의 부족이 평가를 세로 방향으로 볼 수 없는 상황을 초래했다고 말했다. Yadlapati 외 연구진에서, 교육생 중 절반이 예상 시간 내에 기대 수준의 역량을 달성하지 못했다.

Though providing an explicit pre-established path is required for the implementation of DPA, it is also seen as a positive outcome of its implementation as it may have not been created if the implementation didn't require it.21, 23-26, 30, 33, 49, 54, 55, 62-64, 67 This is also seen as a strategy to give residents agency over their own professional development. Only two articles put forward negative outcomes associated with DPA implementation.31, 35 In Tardif and Dubois,35 the authors stated that the lack of faculty development yielded a situation where the assessment was not seen longitudinally. In Yadlapati et al,31 half the trainees did not achieve the expected level of competency in the expected time frame. 

3.9 주제 7: 타당성 근거를 문서화
3.9 Theme 7: Documented evidence of validity

우리는 단지 4개의 기사에서만 타당성을 증명할 수 있었다.

  • Rebel 외 연구진에서, 30명의 저자들은 성장 및 이정표 달성을 문서화하기 위해 성능의 증가와 목표 구조화된 임상 검사(OSCE)의 타당성에 대해 논의한다.
  • Nabors 등은 임상 역량 위원회의 상임위 심사 과정을 기록했다.
  • Pugh 등은 그들의 OSCE가 다른 수준에서 후보들 간의 차별을 할 수 있고 또한 높은 신뢰성을 가지고 있기 때문에 progress test 의 한 형태로 사용될 수 있다고 주장한다.
  • 하우어 외 연구진에서, 저자들은 자신들의 연구 결과가 '능력 개발을 어떻게 특징지을 수 있는지, 임상 역량 위원회와 함께 일하는 프로그램 책임자가 훈련 중에 거주자들이 겪거나 겪지 않은 커리큘럼 경험을 식별하기 위해 어떻게 그것들을 사용할 수 있는지를 보여줌으로써 이정표에 대한 유효성의 증거를 구축하는 것'에 기여한다고 제안한다.

We were able to identify validity evidence in only four articles.30, 36, 61, 67 

  • In Rebel et al,30 the authors discuss the increase in performance, and the validity of their objective structured clinical examination (OSCE) to document growth and milestones attainment.
  • In Nabors et al,61 the authors documented the deliberation process for the clinical competence committee.
  • Pugh et al36 argue that their OSCE can be used as a form of progress test as it can discriminate amongst candidates at different levels, and also has high reliability.
  • In Hauer et al,67 the authors propose that their findings contribute to ‘build evidence of validity for the milestones by showing how they may characterise development of competence and how programme directors working with clinical competency committees may use them to identify curricular experiences residents do or do not have during training.’67(p.361)

4 토론
4 DISCUSSION

CBME에서 평가의 보편성을 고려할 때, 학습자와 사회에 대한 설명 책임의 시대에 새로운 평가를 구현하기 위한 노력은 새로운 평가의 성격과 영향에 대한 깊은 이해가 필요하다. 우리는 DPA의 성공적인 광범위한 구현을 위한 첫 번째 필수 단계로서 DPA의 구현에 대한 문헌의 깊이와 폭을 매핑하기 위해 범위 검토를 수행했다. 16, 71 우리는 논문에서 교육생의 개발과 진행을 문서화하기 위해 배치된 다양한 도구와 프로세스를 관찰했다. 이러한 도구와 프로세스의 구현은 일반적으로 두 가지 목표에 의해 뒷받침되었습니다.

  • (a) 교육생의 발전 및 진행 상황을 보고하고,
  • (b) 교육생의 전문성 향상에 기여한다.

DPA는 성과와 예상 개발 궤적을 직접 관찰함으로써 통보되었다. 몇 가지 상황적 요인이 DPA의 구현을 방해하거나 유리할 수 있다.

Given the ubiquitous nature of assessment in CBME,3, 69, 70 efforts to implement novel assessments in an era of accountability to learners and society require that we have a deep understanding of the nature and impact of novel assessments. We conducted a scoping review to map the depth and breadth of literature on the implementation of DPA as a first and necessary step towards its successful widespread implementation.16, 71 In the retained papers, we observed different tools and processes that were put in place to document the development and progression of trainees. The implementation of these tools and processes were, in general, underpinned by two aims:

  • (a) to report on trainees’ development and progression, and
  • (b) to contribute to trainees’ professional development.

Developmental progress assessment was informed by direct observation of performance and expected developmental trajectories. Several contextual factors could hinder or favour the implementation of DPA.

우리는 DPA의 구현에 따라 개인 및 조직 수준에서 몇 가지 잠재적 긍정적인 결과를 관찰했다.19 [교육생]의 경우, DPA는 훈련의 각 단계에서, 자신의 역량을 갖추고 독립적인 실천으로 발전하는 데 사용될 수 있는 [명확한 기대 로드맵]을 제공한다.4 이 아이디어는 CBME의 핵심이며, 한 가지 원칙은 [역량있고 독립적인 실천으로 가는 개발 경로]를 설정하는 것이다. 그리피스 외 9는 또한 이것이 학습 강화에 기여해야 한다고 말한다.

We observed several potential positive outcomes at the individual and organisational levels following the implementation of DPA.19 For trainees, DPA provides an explicit road map of expectations, at each stage of their training, that can be used to guide their development towards competent and independent practice.4 This idea is central to CBME, for which one principle is to establish a developmental pathway to competent and independent practice. Griffith et al9 also state that this should contribute to enhanced learning.

[교육생과 감독자 모두]에게 DPA는 관찰된 성과에 대한 명시적 설명을 제공하고, 관찰된 성과를 발달 진전에 대한 명시적 기대와 비교한다는 점에서 [피드백을 제공하는 촉진자]로 간주된다. 73-76 두 프로세스 모두 피드백이 성인 학습에 효과적일 수 있는 중요한 요소로 인식된다. [기관]에게 DPA는 진행 상황을 모니터링하고 교정조치가 필요한 전공의를 식별할 수 있는 수단을 제공하며, 교육생 평가와 프로그램 평가도 개선한다. 이러한 잠재적 결과는 교육자와 프로그램 관리자가 제시한 니즈를 충족시킵니다.
For both the trainees and their supervisors, DPA is viewed as a facilitator for providing feedback in that it provides explicit descriptions of observed performance72 and compares observed performance to explicit expectations of developmental progress73-76 both processes are recognised as important factors for feedback to be effective in adult learners. For organisations, DPA provides a mean to monitor progress, identify residents who need remediation and it also provides better trainee assessment and programme evaluation. These potential outcomes fill needs manifested by educators and programme administrators.

DPA의 잠재적인 긍정적인 결과를 관찰했지만, 그 구현에는 몇 가지 과제가 있으며, 그 중 많은 문제는 변화에 대한 내성에 기여할 수 있기 때문에 가볍게 볼 수 없다.9, 71 DPA의 구현은 추가적인 로지스틱컬 부담으로 간주되었다. 일부 저자들은 DPA가 경험적 증거가 부족하다고 생각했지만, 다른 저자들은 그렇지 않았다. 직접 관찰에 필요한 기회와 시간과 관련된 문제를 언급하였다. 직접 관찰은 서로 다른 감독자에 의해 만들어진 다양한 맥락에서 여러 개의 관찰을 갖는 DPA의 초석이다. 이러한 마음가짐에서 평가 지점은 독립적인 스냅샷으로 보이지 않지만 학습자의 잠재 성장 가능성을 보다 완벽하고 감동적으로 포착하는 데 기여하는 것으로 간주된다. 또한 사용자 친화적인 평가 양식에 대한 적시 접근은 필수적입니다.9 이러한 장벽은 증거 정보 HPE를 지원하거나 방해하는 요소를 탐구하는 HPE의 다른 분야의 새로운 연구에서 보고된 장벽과 일치한다.77, 78
Although we observed potential positive outcomes of DPA, there are some challenges to its implementation, many of which cannot be taken lightly as they can contribute towards resistance to change.9, 71 The implementation of DPA was seen as an additional logistical burden; some authors considered that it is lacking empirical evidence, whereas others mentioned issues with the opportunity and time required for direct observation. Direct observation is the cornerstone of DPA with multiple observations in varied contexts made by different supervisors. In this mindset, assessment points are not seen as independent snapshots, but are seen as contributing to a more complete and moving capture of a learner's potential growth. In addition, the just-in-time access to user-friendly assessment forms is quintessential.9 These barriers are in line with those reported in emerging research in other areas of HPE exploring the factors that support or hinder Evidence Informed HPE.77, 78

어떤 경우에는 장벽으로 간주되는 것이 - 다른 상황 또는 다른 상황에서 - 촉진제가 될 수도 있습니다. 이러한 상황적 요인에는 [적절한 도구에 대한 접근성], [교수진 개발] 및 [학습을 위한 평가 원리와 일치하는 지역 문화]가 포함된다(Griffith et al.9). 이러한 연구 결과는 Thomas 등 78과 Onyura 등.77의 연구 결과를 반영하기도 한다. 예를 들어, 적절한 평가 도구에 쉽고 빠르게 접근할 경우 DPA의 구현과 채택이 용이할 수 있지만, 그러한 도구의 개발은 부담으로 간주될 수 있다.
In some instances, what was seen as a barrier could also be - in different contexts or under different circumstances - a facilitator. These contextual factors include having access to appropriate tools, faculty development and a local culture aligned with principles of assessment for learning, as also highlighted recently in Griffith et al.9 These findings also mirror the work by Thomas et al78 and Onyura et al.77 For example, easy and quick access to appropriate assessment tools would facilitate the implementation and uptake of DPA; however, the development of such tools can be seen as burdensome.

앞에서 설명한 바와 같이, 대부분의 CBME 컨텍스트 내에서 DPA의 구현은 필수적입니다. 따라서 현재 DPA의 운영화 및 구현 과정을 겪고 있는 학교나 프로그램의 경우 알려진 촉진자를 내장하는 것이 흥미로울 수 있다. 우리는 CBE의 구현과 환경적 유연성이 DPA의 구현을 선호할 수 있다는 것을 관찰했다. 즉, 지역 문화가 이에 큰 역할을 했다.21, 28, 35, 38, 54 DPA로의 이동은 교육생과 교직원이 [학습의 평가]를 보는 대신에 [학습을 위한 평가]를 보는 것을 요구한다. DPA의 구현은 학습을 위한 평가 문화가 이미 존재하는 상황에서 촉진되었다. 
As stated earlier, implementation of DPA within most CBME contexts is mandatory. Thus, for the schools or programmes that are currently going through the process of operationalising and implementing DPA, it might be interesting to build-in known facilitators. We observed that the implementation of CBE and surrounding flexibility could favour the implementation of DPA. Namely, the local culture played a major role in this.21, 28, 35, 38, 54 The move towards DPA requires that trainees and faculty members see assessment for learning instead of seeing assessment of learning. Implementation of DPA was facilitated in the contexts where there was already a culture of assessment for learning.

DPA의 초기 구현 단계에 있기 때문에, 아카이브의 몇 가지 문서만이 타당성을 입증했다. 앞으로, 이 문제는 목적 있는 접근 방식으로 다뤄질 필요가 있을 것이다. 새로운 평가의 검증은 평가와 최종 목표(기대 성능)가 정적일 때 그 자체로 어렵다. 그러나, DPA의 맥락에서, 기대되는 성과(최종 목표)는 움직이는 목표이며, 이는 우리가 정적 성과에 관심이 없다는 것을 의미한다. 오히려 평가의 초점은 [학생들의 발전 궤도에 대한 진행]에 있다. 이러한 평가 초점의 차이(정적 성과 대 성장) 때문에, 우리는 심리 측정 모델이 이 현실에 적합하지 않을 수 있기 때문에 타당성 증거를 문서화하기 위해 배치될 접근법을 주의 깊게 고려할 필요가 있다. 79-81
As we are at the initial implementation of DPA, only a few articles in our archive presented validity evidence. Moving forward, this issue will need to be addressed in a purposeful approach. Validation of a novel assessment is challenging in itself when the assessment and end goal (expected performance) is static. However, in the context of DPA, the expected performance (end goal) is a moving target, meaning that we are not interested in a static performance; rather, the focus of the assessment is students’ progression on a developmental trajectory. Because of this difference in assessment focus (static performance versus growth), we need to carefully consider the approaches that will be put in place to document validity evidences, as psychometric models may not be suited for this reality.79-81

범위 검토에는 데이터를 해석할 때 독자가 명심해야 하는 몇 가지 제한이 있습니다. 개발 및 진전에 대한 평가가 반드시 새로운 아이디어는 아니지만 - CBE에 대한 초기 글에 포함되었다 - 이 주제에 대한 문헌은 부족하고 CBME의 구현에 따른 HPE에 대부분 포함되어 있다. 따라서, 아직 포괄적일 검색 전략을 만들기 위한 적절한 키워드를 식별하기가 어려웠다.; 이와 같이, 그것은 더 높은 비율의 배제 기사를 낳았다. 이 검색 전략은 2017년 5월에 적용되었는데, 그 이후로 새롭고 다른 결과가 발표될 수 있었는지에 대해 의문이 제기될 수 있다. 우리가 조사한 최근 연구(예: 그리피스 외 9)가 검색 전략에서 확인된 기사에서 추출한 것과 유사한 발견을 보고하기 때문에 그럴 가능성은 낮다고 본다. 우리가 검색을 수행한 이후로 이 주제에 대한 중요한 저작이 출판되지 않았습니다. 범위 지정 연구에서 전형적이듯, 우리는 포함된 연구의 품질 평가를 수행하기보다는 주제에 대한 문헌의 폭과 깊이를 매핑하는 것이 목적이었기 때문에 데이터 말뭉치에 포함된 문헌을 비판적으로 평가하지 않았다.

There are some limitations to our scoping review that the reader should bear in mind when interpreting our data. Though the assessment of development and progress is not necessarily a new idea - it was embedded in the initial writings on CBE - the literature on this topic is scarce and mostly in HPE following the implementation of CBME. Thus, it was difficult to identify the appropriate keywords to create a search strategy that would be focused yet inclusive; as such, it resulted in a higher percentage of excluded articles. The search strategy was applied in May 2017, which might bring into question if new and different results could have been published since then. We believe that is unlikely, as the recent studies we surveyed (eg, Griffiths et al9) report similar findings to those we extracted from our articles identified in our search strategy. There has not been a seminal work published on the topic since we conducted our search. As is typical in scoping studies, we did not critically appraise the literature included in our data corpus, as our intention was to map the breadth and depth of the literature on the topic rather than conduct a quality assessment of the included studies.

5 결론
5 CONCLUSIONS

피드백을 제공할 수 있는 시설의 증가, 교정조치가 필요한 교육생의 잠재적 식별, 자체 개발에서 교육생에게 주어지는 기관의 증가에서 볼 수 있듯이, 개발 진행 평가는 미래의 유능한 보건 전문가의 훈련의 필요성을 충족시키는 것으로 보인다. 그러나 잠재적인 물류 및 부담스러운 함정이 우리를 기다리고 있다. DPA의 광범위한 구현을 진행하면서, 교육자와 연구원들은 평가 해석의 타당성에 대한 증거를 수집하는 것을 염두에 둘 필요가 있다.

Developmental progress assessment seems to fill a need in the training of future competent health professionals, as can be seen by the increased facility to provide feedback, the potential identification of trainees that require remediation, and the increased agency given to trainees in their own development. Yet, potential logistical and burdensome pitfalls await us. Moving forward with a widespread implementation of DPA, educators and researchers need to be mindful of collecting evidences of the validity of the assessment interpretation.

 


Med Educ. 2020 Oct;54(10):878-887. doi: 10.1111/medu.14136. Epub 2020 Apr 15.

Lessons from the implementation of developmental progress assessment: A scoping review

Affiliations collapse

Affiliations

1Department of Medicine, Faculty of Medicine and Health Sciences, University of Sherbrooke, Sherbrooke, Québec, Canada.

2Faculty of Medicine and Health Sciences, University of Sherbrooke, Sherbrooke, Québec, Canada.

3Department of Family and Emergency Medicine, Faculty of Medicine and Health Sciences, University of Sherbrooke, Sherbrooke, Québec, Canada.

4Research Center - Sherbrooke University Hospital Center (CHUS), Integrated Health and Social Service Centers (CISSS) and Integrated University Health and Social Service Centres (CIUSSS), Sherbrooke, Québec, Canada.

5School of Physical and Occupational Therapy, McGill University, Montreal, Québec, Canada.

PMID: 32083743

DOI: 10.1111/medu.14136

Abstract

Objectives: Educators and researchers recently implemented developmental progress assessment (DPA) in the context of competency-based education. To reap its anticipated benefits, much still remains to be understood about its implementation. In this study, we aimed to determine the nature and extent of the current evidence on DPA, in an effort to broaden our understanding of the major goals and intended outcomes of DPA as well as the lessons learned from how it has been executed in, or applied across, educational contexts.

Methods: We conducted a scoping study based on the methodology of Arksey and O'Malley. Our search strategy yielded 2494 articles. These articles were screened for inclusion and exclusion (90% agreement), and numerical and qualitative data were extracted from 56 articles based on a pre-defined set of charting categories. The thematic analysis of the qualitative data was completed with iterative consultations and discussions until consensus was achieved for the interpretation of the results.

Results: Tools used to document DPA include scales, milestones and portfolios. Performances were observed in clinical or standardised contexts. We identified seven major themes in our qualitative thematic analysis: (a) underlying aims of DPA; (b) sources of information; (c) barriers; (d) contextual factors that can act as barriers or facilitators to the implementation of DPA; (e) facilitators; (f) observed outcomes, and (g) documented validity evidences.

Conclusions: Developmental progress assessment seems to fill a need in the training of future competent health professionals. However, moving forward with a widespread implementation of DPA, factors such as lack of access to user-friendly technology and time to observe performance may render its operationalisation burdensome in the context of competency-based medical education.

필기시험 기반 발달시험: 스코핑 리뷰(Acad Med, 2022)
Written-Based Progress Testing: A Scoping Review
Vincent Dion, Christina St-Onge, PhD, Ilona Bartman, MA, Claire Touchie, MD, MHPE, and Debra Pugh, MD, MHPE 

 

 

더 많은 교육자가 이 평가 형식이 학습 및 장기적인 지식 보존에 미치는 긍정적인 효과를 인식함에 따라 Progress 테스트가 인기를 얻고 있습니다. 1-3 Progress testing는 

  • 포괄적(즉, 전체 커리큘럼을 포함하는 블루프린트), 
  • 종단적(즉, 학습자를 시간에 따라 여러 차례에 걸쳐 평가함) 및 
  • 단면적(즉, 서로 다른 교육 단계의 학습자는 동일한 내용을 사용하여 평가함)의 평가 형태를 말합니다. 4 

불행히도, Progress 시험이 지역 맥락 내에서 작동하도록 조정된 방법에는 많은 가변성이 있다. 평가 프로그램에서 Progress 시험을 구현하는 방법에 대한 [기관의 다양한 결정]은 발달시험의 잠재적인 긍정적인 이익을 저해하거나 강화할 수 있다. 따라서, 우리는 Progress 시험을 시행할 때 채택해야 하는 다양한 관행을 문서화하기 위해 노력했다.

Progress testing is gaining in popularity as more educators recognize the positive effects that this assessment format has on learning and long-term knowledge retention. 1–3 Progress testing refers to a form of assessment that is

  • comprehensive (i.e., the blueprint covers an entire curriculum),
  • longitudinal (i.e., learners are assessed on multiple occasions over time), and
  • cross-sectional (i.e., learners from different stages of training are assessed using the same content). 4 

Unfortunately, there is much variability in how progress testing has been adapted to work within local contexts. The different decisions made by institutions about how to implement progress testing in their programs of assessment could either undermine or reinforce its potential positive benefits. Thus, we sought to document the variety of practices that should be adopted when implementing progress tests.

Progress 테스트는 문제 기반 학습 컨텍스트를 위해 개발되었고, 이는 원래 학생들의 바람직한 학습 행동을 극대화하기 위한 목적이 있었다. 5-7 마스트리흐트 대학과 미주리-캔자스 의과대학 은 1970년대 중반에 Progress testing 방법을 독자적으로 개발한 최초의 대학이다. 맥마스터 대학교는 1991년부터 926년까지, 위트레흐트는 2002년부터 2003년까지 이를 따랐다. 이후 Progress testing은 다양한 교육 맥락에서 폭넓게 도입되었다.

Progress testing was originally developed for problem-based learning contexts to maximize desirable learning behaviors in students. 5–7 The University of Maastricht 5 and the University of Missouri-Kansas City School of Medicine 8 were the first to independently develop the progress testing method in the mid-1970s. McMaster University followed suit in 1991–1992 6 and the University Medical Center Utrecht did so in 2002–2003. 7 Progress testing was then more broadly adopted in numerous educational contexts. 9

그 시작 이래로, Progress 시험의 사용을 위해 문서화된 많은 증거들이 있다. 이러한 종단적 평가 형식은 신뢰할 수 있는 결과 5,6을 산출하는 것으로 나타났으며 시간이 지남에 따라 학습자의 지식이 증가한다는 증거가 있다. 3,6,10–14 나아가, Progress 테스트는 학습을 촉진하는 것으로 나타났다. Progress testing의 설계는 테스트 지향적 학습 전략이 애초에 불가능하기 때문에, 그것을 사용하지 않게 만든다. 오히려 진도 시험은 심화 학습과 장기 보존을 강조하는 공부 전략을 장려한다. 따라서 특정 내용(즉, 시험을 위한 교수 및 학습)에 집중함으로써 nonprogress test가 학습자에게 미칠 수 있는 부정적인 영향이 progress testing에서는 제한적이다. 진도 테스트는 또한 자기 주도 학습을 장려할 수 있는 피드백을 제공할 수 있는 여러 기회를 제공한다.
Since its inception, there has been much evidence documented for the use of progress testing. This longitudinal assessment format has been shown to yield reliable results, 5,6 and there is evidence of an increase in learners’ knowledge over time. 3,6,10–14 Furthermore, progress testing has been shown to promote learning. 1,15 The design of progress tests discourages test-directed learning strategies because it is virtually impossible to study for a single examination when such a large volume of knowledge is assessed. 6,16 Rather, progress testing encourages studying strategies that emphasize deep learning and long-term retention. The negative effect that nonprogress tests can have on learners by focusing on specific content (i.e., teaching and learning for the test) is therefore limited. Progress tests also offer multiple opportunities to provide feedback that can encourage self-directed learning.

Progress 시험에 대한 문헌의 최근 리뷰는 대부분 Progress 시험 구현을 위한 지침을 제공하는 데 초점을 맞추고 있다. 이러한 지식 종합은 비판적 검토 방법론 18 또는 일반적인 검토를 통해 통보되었다. 17,19 이러한 종합에서 얻을 수 있는 것은 다음과 같은 것들이 있다.
Most recent reviews of the literature on progress testing 17–19 have focused on providing guidelines for implementing progress tests. These knowledge syntheses were informed by a critical review methodology 18 or by general reviews. 17,19 What can be gleaned from these syntheses are suggestions about

  • progress test length,
  • direction about guessing (i.e., use of the “don’t know” option),
  • content creation (e.g., blueprint and item banks),
  • administration frequency,
  • scoring and scores/feedback reports to students,
  • summative uses (for students and for comparing schools), and
  • resource requirements.

점점 더 많은 기관이 Progress 테스트를 구현하기 위해 자원 투자를 고려함에 따라, 성공적인 결과와 관련된 특정 기능(즉, 학생들의 학습 증가)을 더 잘 이해할 필요가 있다. 이 연구의 목적은 현재 진행 시험 관행뿐만 아니라 구현에 대한 장벽과 촉진제 및 알려진 품질 모니터링 관행을 문서화하기 위한 문헌을 체계적으로 탐색하는 것이었다. 따라서, 우리는 실행 선택을 하는 프로그램에 대한 증거 기반 데이터를 제공하기 위해 진행률 테스트 관행의 범위, 범위 및 성격을 엄격하게 조사했다.
As more and more institutions contemplate investing resources to implement progress testing, there is a need to better understand what specific features are associated with successful outcomes (i.e., increased learning in students). The aim of this study was to systematically explore the literature to document current progress testing practices as well as the barriers and facilitators to implementation and known quality-monitoring practices. Thus, we rigorously examined the extent, range, and nature of progress testing practices to provide evidence-based data for programs making implementation choices.

방법
Method

Arcsey와 O'Malley가 제안한 원래 범위 검토 방법론에 따라, 우리의 연구는 (1) 연구 질문 식별, (2) 관련 연구 식별, (3) 연구 선택, (4) 데이터 차트 작성, (5) 결과 대조 및 보고의 5단계로 통보되었다. Levac과 동료 21명은 Arcsey와 O'Malley의 지도적 상담 연습 20을 여섯 번째 단계로 포함하는 것에 대해 논증했다. 이 범위 검토에서, 우리의 결과가 꽤 간단했기 때문에 우리는 공식적인 협의를 하지 않았다. 1~5단계는 아래에 제시되어 있습니다.

As per the original scoping review methodology proposed by Arksey and O’Malley, 20 our study was informed by 5 steps:

  • (1) identifying the research question,
  • (2) identifying relevant studies,
  • (3) study selection,
  • (4) data charting, and
  • (5) collating and reporting results.

Levac and colleagues 21 made the case for including Arksey and O’Malley’s

  • facultative consultation exercise 20 as a sixth step.

In this scoping review, we did not do a formal consultation as our results were fairly straightforward. Steps 1 to 5 are presented below.

1단계: 조사 질문 식별
Step 1: Identifying the research question

검토를 안내하는 주요 연구 질문은 "현재 Progress 테스트 관행, 장벽 및 구현 촉진 요인 및 알려진 품질 모니터링 관행은 무엇입니까?"였다. 보다 구체적으로, 우리는 다음을 목표로 삼았다.
The main research question guiding our review was: “What are current progress testing practices, barriers, and facilitators to implementation and known quality-monitoring practices?” More specifically, we aimed to:

  • 실행된 Progress 시험의 특징(예: 길이, 투여 빈도, 목적)을 설명한다.
  • Progress 테스트의 구현에 대한 잠재적 촉진자 및 장벽을 식별합니다.
  • 품질 모니터링 관행과 Progress 테스트 구현의 잠재적 결과 및 결과를 조사합니다.
  1. Describe the characteristics (e.g., length, frequency of administration, purpose) of implemented progress tests.
  2. Identify potential facilitators and barriers to the implementation of progress testing.
  3. Explore quality-monitoring practices and potential consequences and outcomes of progress testing implementation.

2단계: 관련 스터디 식별
Step 2: Identifying relevant studies

두 번째 저자는 학술 사서와 함께 연구팀원들과 협의해 검색 전략을 구체화했다. 이 검색 전략은 Supplemental Digital Appendix 1에 제시되어 있으며 Progress 테스트를 설명하는 데 사용되는 키워드에 초점을 맞추고 있습니다. 
Working with an academic librarian, the second author (C.S.-O.) elaborated a search strategy in consultation with the research team members. This search strategy is presented in Supplemental Digital Appendix 1 at https://links-lww-com-ssl.access.hanyang.ac.kr/ACADMED/B206 and focused on keywords used to describe progress tests.

최종 검색은 6개의 데이터베이스에 적용되었습니다. 학술 검색 완료, CINAHL, ERIC, 교육 출처, MEDLINE 및 PsycINFO. 우리는 교육, 심리학, 사회과학, 의학 문헌을 아우르는 데이터베이스를 검색했다. 또한, 우리는 중복이 가능한 한 적은 데이터베이스를 사용하기로 결정했다. 우리는 2018년 5월 22일(첫 번째 반복)에 초기 검색을 수행했다. 2020년 4월 21일에 검색의 두 번째 반복을 수행하여 검토를 업데이트하고 중요한 최근 데이터를 누락하지 않도록 했다.

The final search was applied to 6 databases: Academic Search Complete, CINAHL, ERIC, Education Source, MEDLINE, and PsycINFO. We searched these databases as they encompass the education, psychology, social sciences, and medical literature. Also, we made a choice to use databases that had as little overlap as possible. We conducted an initial search on May 22, 2018 (first iteration). We used the same strategy to conduct a second iteration of the search on April 21, 2020, to update our review and to avoid missing valuable recent data (see Supplemental Digital Appendix 1 at https://links-lww-com-ssl.access.hanyang.ac.kr/ACADMED/B206).

연구팀은 기존 Progress 테스트의 3가지 주요 특징(즉, 종방향, 단면 및 포괄적)을 가진 평가를 기술한 기사를 포함했다. 우리는 필기 진도 시험과 고등교육의 맥락에서 연구와 관련된 기사만을 포함했다. 영어나 프랑스어로 쓰여진 기사도 포함되어 있었다. 우리는 경험적 연구와 서면 Progress 테스트에 대한 1차 참조의 연구뿐만 아니라 동료 검토 기사를 포함했다. 우리는 지식 종합(리뷰), 사설, 목차, 회의 요약 및 주석 기사를 제외했다.

The research team included articles that described assessments that had the 3 cardinal features of traditional progress tests (i.e., longitudinal, cross-sectional, and comprehensive). We only included articles that described written progress tests and those that related to studies in the context of higher education. Articles written in either English or French were included. We included peer-reviewed articles as well as studies from empirical research and primary references to written progress tests. We excluded knowledge syntheses (reviews), editorials, tables of contents, conference abstracts, and commentary articles.

3단계: 스터디 선택
Step 3: Study selection

첫 번째 검색과 두 번째 검색 반복 동안, 2명의 팀 구성원(C.S.-O. 및 D.P.)은 포함/제외 기준을 위해 모든 제목과 요약을 선별했다. 그들은 모든 이견을 논의했고 합의가 이루어지지 않을 때 전체 텍스트 검토를 했다. 그들은 또한 눈덩이처럼 불어나는 접근법을 사용하여 포함된 참조 목록에서 추가 기사를 식별하고 자격을 위해 제목과 요약본을 선별했다.

During the initial search and the second iteration of the search, 2 team members (C.S.-O. and D.P.) screened all titles and abstracts for the inclusion/exclusion criteria. They discussed all disagreements and did a full-text review when consensus could not be reached. Using a snowball approach, they also identified additional articles from the included reference lists and screened the titles and abstracts for eligibility.

4단계: 데이터 차트 작성
Step 4: Data charting

한 팀원(C.S.-O.)은 3명의 팀원(I.B., C.T. 및 D.P.)과 검토 및 논의한 초기 추출 그리드를 개발했습니다. 엑셀(워싱턴주 레드먼드, 마이크로소프트 코퍼레이션, 엑셀 365)에서 만들어진 수정된 양식은 무작위로 고른 5개의 기사를 사용하여 4명의 팀 구성원(C.S.-O., I.B., C.T. 및 D.P.)에 의해 시범적으로 테스트되었다. 연구팀은 추출 그리드의 명확성과 표준화된 사용을 보장하기 위해 그리드를 수정했습니다.

One team member (C.S.-O.) developed an initial extraction grid that was reviewed and discussed with 3 team members (I.B., C.T., and D.P.). The revised form, created in Excel (Excel 365, Microsoft Corporation, Redmond, Washington), was pilot-tested by 4 team members (C.S.-O., I.B., C.T., and D.P.) using 5 randomly selected articles. The team revised the extraction grid to ensure its clarity and standardized use.

결과 그리드에는 17개 요소가 포함되었다: .
The resulting grid included 17 elements:

  1. progress test characteristics (e.g., number of questions, question format),
  2. frequency of progress test administration,
  3. process for content development,
  4. examinee/study population,
  5. type of feedback provided (if any),
  6. use of score conversion and/or equating,
  7. scoring methods (e.g., formula scoring),
  8. standard-setting procedures (if any),
  9. institutional motivation for implementing progress testing,
  10. facilitators for implementing progress testing,
  11. barriers/challenges to implementing progress testing,
  12. acceptance of progress testing by students and faculty,
  13. use of collaborative networks,
  14. study purpose,
  15. study design,
  16. sources of validity evidence for progress tests (i.e., content, response process, internal structure, relationship to other variables, and consequences), and
  17. outcomes related to the implementation of progress testing.

처음에는 4명의 팀원(C.S.-O., I.B., C.T. 및 D.P.)에 의해 5개의 기사가 독립적으로 코딩되었다. 그리고 나서 15개의 기사가 팀원들의 다이드에 의해 코딩되었고, 이것은 연구팀이 90%의 동의율을 확립할 수 있게 해주었다. 나머지 기사는 4명의 팀원들에게 균등하게 분배되고 독립적으로 코딩되었습니다. 초기 검색에서 포함된 모든 기사에 대한 추출은 각 독립 추출의 체계적인 수정과 원본 기사와의 비교를 수행한 다섯 번째 팀 구성원(V.D.)이 발췌본을 병합하여 데두스(Dedoose, Los Angeles, Social Cultural Research Consultants, California)에 의해 검토되었다. 검색의 두 번째 반복에서 추출은 V.D.에 의해 6개의 기사에 대해 수행되었고 C.S.-O.와 D.에 의해 독립적으로 검토되었다.p.

Five articles were initially coded independently by 4 team members (C.S.-O., I.B., C.T., and D.P.). Then 15 articles were coded by dyads of team members, which allowed the research team to establish a 90% agreement rate. The remaining articles were distributed equally among the 4 team members and coded independently. Extractions for all included articles from the initial search were reviewed by a fifth team member (V.D.) who performed a systematic revision of each independent extraction and comparison with the original article to merge and export the excerpts to Dedoose (Dedoose 8.3.47, SocioCultural Research Consultants, Los Angeles, California). For the second iteration of the search, extractions were made by V.D. for 6 articles and reviewed independently by C.S.-O. and D.P.

5단계: 결과 수집 및 보고
Step 5: Collating and reporting results

발행 연도, 연구 국가, 저널, 연구 목적, 진도 테스트 구현 동기, 연구 설계, 학습자 규율 및 수준, 이해관계(즉, 낮거나 높음), 점수, 테스트 관리 빈도, 테스트 특성(항목 유형, 항목 수, 평가에 주어지는 시간)을 요약하기 위해 빈도를 사용했다. 피드백 관행 및 유효성 증거의 출처(존재 또는 부재). 우리는 이러한 기술 통계량을 계산하기 위해 Dedoose를 Excel과 함께 사용했다.
We used frequencies to summarize the numerical data: year of publication, country of study, journal, study purposes, motivations to implement progress testing, study design, learners’ discipline and level, stakes (i.e., low or high), scoring, administration frequency of the test, test characteristics (item type, number of items, time allowed for the assessment), feedback practices, and sources of validity evidence (present or absent). We used Dedoose conjointly with Excel to calculate these descriptive statistics.

우리는 포함된 기사에서 관찰한 타당성 증거의 출처에 대한 분석과 보고를 알리기 위해 [통합 이론으로서의 타당성]의 개념을 사용했다. 보다 구체적으로, 우리는 (교육 및 심리 테스트 표준 22에 따라) 타당성의 통일 이론 23에 대한 다우닝의 해석을 사용했다. 내용, 대응 프로세스, 내부 구조, 다른 변수와의 관계, 결과 등의 범주별로 타당성 증거의 소스를 구성했다. 우리는 정성적 주제 분석을 사용하여 결과에 관한 증거를 탐구했다.
We used the conceptualization of validity as a unified theory 22 to inform our analysis and reporting on the sources of validity evidence we observed in the included articles. More specifically, we used Downing’s interpretation of the unified theory of validity 23 (as per the Standards for Educational and Psychological Testing22). We organized sources of validity evidence by category: content, response process, internal structure, relationship to other variables, and consequences. We explored the evidence regarding consequences using a qualitative thematic analysis.

Arcsey와 O'Malley가 설명한 대로, 20 우리는 Dedoose를 사용하여 정성적 데이터 24,25에 대한 주제 분석을 수행했다. 이 범위 지정 검토의 목표는 진행률 테스트 사용에 대한 문헌의 깊이와 폭을 매핑하는 것이었으므로, 구현 및 품질 모니터링 프로세스 중에 종종 발생하는 요인(유효성의 문서화된 증거)에 대한 우리의 발견을 명확히 했다.
As described by Arksey and O’Malley, 20 we conducted a thematic analysis of the qualitative data 24,25 using Dedoose. Our goal for this scoping review was to map the depth and breadth of the literature on the use of progress testing, thus we articulated our findings around the factors that often come into play during the implementation and quality-monitoring processes (documented evidence of validity).

보다 구체적으로, 각 추출 범주를 하나씩 작업하면서, 한 팀 구성원(V.D.)은 모든 발췌문을 검토하고 각 추출 범주 내의 본질을 포착할 코드를 생성했다. 코딩 트리는 한 명의 다른 팀 구성원(C.S.-O.)과 반복적인 토론을 통해 생성 및 수정되었으며 모든 추출에 적용되었다. 결과 코딩 트리와 해당 발췌문은 다른 팀 구성원(I.B., C.T. 및 D.P.)에게 제시되었다. 이 세 명의 팀원들은 이어서 내부 코드 일관성을 검증했습니다. 우리는 3명의 팀 구성원 중 2명이 동일한 코드에 특정 발췌문을 독립적으로 할당했을 때 합의가 이루어졌다는 것을 고려했다. 추가적인 논의가 이어졌고, 그 결과들에 대한 우리의 최종 해석과 아래에 제시된 중요한 주제들의 식별로 이어졌다.
More specifically, working through each extraction category one-by-one, one team member (V.D.) reviewed all the excerpts and created codes that would capture the essence within each extraction category. A coding tree was created and revised through iterative discussion with one other team member (C.S.-O.) and applied to all the extractions. The resulting coding tree and corresponding excerpts were presented to the other team members (I.B., C.T., and D.P.). These 3 team members then proceeded to verify the intracode coherence. We considered that agreement was reached when 2 of the 3 team members independently assigned a specific excerpt to the same code. Additional discussion ensued and led to our final interpretation of the findings and the identification of the overarching themes presented below.

결과.
Results

우리는 체계적 검토를 위한 선호 보고 항목과 범위 검토를 위한 메타 분석(PRISMA) 확장 지침을 따랐다. 26 당사의 기사 검색 및 선택 프로세스는 그림 1에 자세히 설명되어 있습니다. 초기 검색(첫 번째 반복)에 이어, 우리는 중복된 문서와 영어 또는 프랑스어로 동료 검토 또는 작성되지 않은 기사를 제거한 다음 나머지 300개 기사의 제목과 요약을 선별했다. 우리의 포함 및 제외 기준을 적용한 후, 167개의 전문 기사가 적격성을 평가받았다. 전체 텍스트 검토와 포함된 참조 목록의 기사 추가(스노볼 접근)를 거쳐 총 97개의 기사가 나왔다. 우리는 검색의 두 번째 반복에 따라 이러한 단계를 반복했고 분석에 포함된 총 104개의 기사에 대해 7개의 기사를 추가했다. 1,3,5–14,16,27–117

We followed the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) Extension for Scoping Reviews guidelines. 26 Our article search and selection process is detailed in Figure 1. Following the initial search (first iteration), we eliminated duplicates and those articles that were not peer reviewed or written in English or French and then screened the titles and abstracts of the remaining 300 articles. After applying our inclusion and exclusion criteria, 167 full-text articles were assessed for eligibility. After the full-text review and the addition of articles from the included reference lists (snowball approach), we had a total of 97 articles. We repeated these steps following the second iteration of the search and added 7 articles for a total of 104 articles included in our analyses. 1,3,5–14,16,27–117

기술 결과
Descriptive results

숫자 데이터와 해당 인용문은 보충 디지털 부록 2에 나와 있습니다. 2005년과 2020년 사이에 79개의 논문(76.0%)이 발표되었고, 시간이 지남에 따라 진행률 테스트에 대한 기사 수가 증가하였다(그림 2 참조).

The numerical data and corresponding citations are presented in Supplemental Digital Appendix 2 at https://links-lww-com-ssl.access.hanyang.ac.kr/ACADMED/B206. We found an increase in the number of articles published on progress testing over time (see Figure 2), with 79 articles (76.0%) published between 2005 and 2020.

연구 국가 및 학술지.
Countries of study and journals.

논문의 대다수는 네덜란드(44.3%) 영국(15.4%) 독일(10.9.6%) 미국(9.8.7%) 등의 연구진이 차지했다. 기사는 4개의 주요 저널에 게재되었다: 의학교사(27명, 26.0%), 의학교육(16명, 15.4%), BMC 의학교육(8명, 7.7%), 보건과학교육의 발전(7명, 6.7%) 순이었다.
The majority of articles were from researchers in the Netherlands (44, 42.3%), the United Kingdom (15, 14.4%), Germany (10, 9.6%), and the United States (9, 8.7%). Articles were published in 4 main journals: Medical Teacher (27, 26.0%), Medical Education (16, 15.4%), BMC Medical Education (8, 7.7%), and Advances in Health Sciences Education (7, 6.7%).

연구 목적, 동기 및 방법론.
Study purposes, motivations, and methodologies.


가장 일반적으로 언급되는 5가지 연구 목적은 

  • (1) 주어진 맥락에서 Progress 시험 점수의 타당성을 탐구(28, 26.9%)
  • (2) Progress 테스트 구현 방법 설명(20, 19.2%)
  • (3) 학교 또는 커리큘럼 비교(16, 15.4%)
  • (4) 학습자 지식 증가(15, 14.4%)를 사용하여 커리큘럼을 평가한다.
  • (5) Progress 시험의 합격 여부 조사(12, 11.5%)

The 5 most commonly stated study purposes were to

  • (1) explore the validity of progress test scores in a given context (28, 26.9%),
  • (2) describe how an institution implemented progress testing (20, 19.2%),
  • (3) compare schools or curricula (16, 15.4%),
  • (4) evaluate a curriculum using learner knowledge growth (15, 14.4%), and
  • (5) explore the acceptance of progress testing (12, 11.5%).

Progress testing를 시행한 이유로는

  • (1) 커리큘럼을 개발하거나 감독하기 위해서(21명, 20.2%)와, 
  • (2) 시험 위주의 학습을 막거나, 더 깊은 학습을 장려하기 위해서(12명, 11.5%)와, 
  • (3) 학습자의 지식증가를 추적하기 위해서(9명, 8.7%), 
  • (4) 피드백 제공(9명, 8.7%)이 가장 많이 언급되었다.

The 4 most commonly stated reasons for implementing progress testing were to

  • (1) develop or supervise a curriculum (21, 20.2%),
  • (2) prevent test-driven learning or promote deeper learning (12, 11.5%),
  • (3) follow learners’ knowledge growth (9, 8.7%), and
  • (4) provide feedback (9, 8.7%).

대부분의 기사는 정량적 연구 설계(87, 83.7%) 또는 정량적-정량적 혼합 설계(8, 7.7%)를 사용했다. 의학 교육 분야에서는 88개 항목(84.6%), 치과 분야에서는 7개 항목(6.7%), 조산 분야에서는 2개 항목(1.9%)이었다. 대부분의 연구는 87, 83.7%의 학부 교육생과 관련된 반면, 15, 14.4%의 대학원 교육생과 관련된 연구는 적었다.
Most articles used a quantitative study design (87, 83.7%) or a mixed quantitative–qualitative design (8, 7.7%). Eighty-eight articles (84.6%) were situated in medical education, 7 (6.7%) in dentistry, and 2 (1.9%) in midwifery. The majority of studies involved undergraduate trainees (87, 83.7%), while fewer involved postgraduate trainees (15, 14.4%).

progress tests 는 형성적 목적(43명, 41.3%)이 많이 사용된 반면 총괄 목적(17명, 16.3%)은 상대적으로 적었다. 11개조(10.6%)는 progress tests 가 형태별·총괄적 목적을 모두 구현한 것으로 나타났고, 33개조(31.7%)는 의도된 목적을 구체적으로 밝히지 않았다. 숫자 맞추기 점수(10, 9.6%)보다 공식 점수 매기기('모름' 옵션을 포함)가 더 자주(64, 61.5%) 사용됐다.
Many progress tests were used for formative purposes (43, 41.3%), while relatively few were used for summative purposes (17, 16.3%). Eleven articles (10.6%) indicated that progress testing was implemented for both formative and summative purposes, while 33 (31.7%) did not specify the intended purpose. Formula scoring (which included the “don’t know” option) was used more frequently (64, 61.5%) than number-correct scoring (10, 9.6%).

테스트 작업 진행
Progress test practices.

progress tests 의 시행 빈도는 다양했지만, 1년에 1~4회 실시되는 경우가 가장 많았다. progress tests 는 연 4회(38명, 36.5%) 시행되는 경우가 많았고, 이어 연 2회(26명, 25.0%), 연 3회(13명, 12.5%), 연 1회(6명, 5.8%) 순이었다. 진도검사 한 건은 2년간 5회(1, 1.0%), 다른 한 건은 3년간 8회(1, 1.0%) 실시됐다. 7개 연구팀(6.7%)은 매년 투여 빈도가 달라졌다고 답한 반면 12개 기사(11.5%)에서는 투여 빈도가 보고되지 않았다.

The frequency of administration of progress tests varied, although 1 to 4 times per year was most common. Many progress tests were administered 4 times a year (38, 36.5%), followed by 2 times a year (26, 25.0%), 3 times a year (13, 12.5%), and 1 time a year (6, 5.8%). One progress test was administered 5 times over a 2-year period (1, 1.0%), and another was administered 8 times over a 3-year period (1, 1.0%). Seven research teams (6.7%) reported that the administration frequency varied from year to year, while there was no reported administration frequency in 12 articles (11.5%).

가장 많이 사용된 항목 유형은 객관식 및 참 또는 거짓 형식(95, 91.3%)이었다. 단답형 항목 사용을 보고한 기사는 2건(1.9%)이었고, 9건(8.7%)은 어떤 형식도 명시하지 않았다. 89개 항목(85.6%)에서 진행률 테스트는 40~400개 항목(중간값 = 200개)으로 구성됐다. 기타 진행도 검사에서는 관리 간 항목 수가 변동하거나 항목 수를 전혀 보고하지 않았다(14명, 13.5%)는 결과가 나왔다.
The item types most frequently used were multiple-choice and/or true-or-false formats (95, 91.3%). Two articles (1.9%) reported the use of short-answer items, and 9 (8.7%) did not specify any format. In 89 articles (85.6%), progress tests comprised 40 to 400 items (median = 200). Other progress tests included a variable number of items between administrations or did not report the number of items at all (14, 13.5%).

테스트 시간은 45분에서 360분까지 다양했으며, 180분이 가장 일반적인 테스트 시간(14, 13.5%)이었다. 허용된 시간과 항목 번호(25, 24.0%)를 모두 보고한 기사 중 항목당 평균 시간은 54초에서 2분(160 = 75초)으로 다양했다.
Testing time varied from 45 to 360 minutes with 180 minutes being the most common testing time (14, 13.5%). Of articles reporting both allowed time and item number (25, 24.0%), the average time per item varied from 54 seconds to 2 minutes (mean = 75 seconds).

피드백 관행.
Feedback practices.

표 1에서 보는 바와 같이 기사마다 콘텐츠의 종류와 피드백 방법이 달랐다.
As shown in Table 1, the type of content and methods of feedback varied from article to article.

진행률 시험 점수 해석의 타당성을 뒷받침하는 증거.
Evidence to support the validity of progress test score interpretation.

표 2에는 [내용 타당성 증거], 즉 품목 개발 및 품목 검토를 위해 시행한 관행이 포함되어 있습니다. 일부 progress tests 의 경우, 콘텐츠 개발은 학습자가 습득해야 할 지식을 결정하는 커리큘럼 청사진과 임상실습을 기반으로 했다.

Table 2 includes content validity evidence, that is, the practices put in place for item development and item reviewing. For some of the progress tests, content development was based on the curriculum blueprint, which determined the knowledge learners needed to acquire, and clinical practice.

[대응 프로세스 및 내부 구조와 관련된 증거]는 표 3에 제시되어 있으며, 내부 일관성 관련 추가 데이터는 보충 디지털 부록 3에 보고되어 있다.
The evidence related to response process and internal structure is presented in Table 3 with additional data related to internal consistency reported in Supplemental Digital Appendix 3 at https://links-lww-com-ssl.access.hanyang.ac.kr/ACADMED/B206.

[다른 변수와 관련된 근거]에 [progress tests 점수와 전문가로서의 미래역량 사이에 정량적 상관관계]와 질적 연관성이 나타났고, 졸업시험(9·8.7%), 교육과정 내 기타평가(13·12.5%), 기타학교 진도검사 점수(8·7.7%)가 나왔다. 20개 조항(19.2%)이 사용된 명시적 표준 설정 방법을 보고했다.
Regarding the evidence related to relationship to other variables, quantitative correlations and qualitative associations were made between progress test scores and future competence as a professional (9, 8.7%), graduation exams (9, 8.7%), other assessments in the curriculum (13, 12.5%), and other schools’ progress test scores (8, 7.7%). Twenty articles (19.2%) reported the explicit standard-setting method used.

[결과와 관련된 증거]는 정성적 데이터 분석의 결과로 아래에 제시된다.
Evidence related to consequences
is presented below as the results of our qualitative data analysis.

 

테마
Themes

우리는 우리의 질적 주제 분석에서 진도 테스트 구현에 대한 이해를 알릴 수 있는 4가지 주요 주제를 확인하였다.

  • (1) progress testing 구현에 대한 장벽과 과제,
  • (2) progress testing 구현의 촉진자로서의 협업 확립,
  • (3) progress testing 수용을 증가시키는 요인
  • (4) 개별 및 프로그램 수준의 결과 및/또는 progress testing 사용의 결과.

하위 주제는 15개에서 69개의 다른 기사들에 의해 지원되었다.
We identified 4 major themes in our qualitative thematic analysis that can inform our understanding of the implementation of progress testing:

  • (1) barriers and challenges to the implementation of progress testing,
  • (2) established collaboration as a facilitator of progress testing implementation,
  • (3) factors that increase the acceptance of progress testing, and
  • (4) individual- and program-level outcomes and/or consequences of progress test use.

Subthemes were supported by 15 to 69 different articles.

주제 1: 장벽과 과제
Theme 1: Barriers and challenges.


국지적 맥락에서 진행률 시험의 구현에 대한 네 가지 주요 장벽과 과제가 식별되었다. 첫째, 진도 시험의 구현은 지역 문화와 평가 관행에 변화를 요구한다(n = 8). 예를 들어, [블록 시험 평가 문화에 익숙한 학습자]는 진도 시험을 공정하거나 가치 있는 학습 기회로 인식하지 못할 수 있다. 또한 progress testing의 구현에는 추가 자원(n = 17)이 필요하다. 6,7,9,52,54–66 교직원의 관점에서, 익숙하지 않은 형태의 평가의 구현에는 광범위한 자원, 자격 있는 직원, 시간 및 적절한 인프라가 필요하다.

Four main barriers and challenges to the implementation of progress testing in a local context were identified. First, the implementation of progress testing requires a change in local culture and assessment practices (n = 8). 14,16,48–53 For example, learners accustomed to a block test assessment culture may not perceive progress testing as fair or as a worthwhile learning opportunity. The implementation of progress testing also requires additional resources (n = 17). 6,7,9,52,54–66 From a faculty perspective, the implementation of an unfamiliar form of assessment requires extensive resources, qualified staff, time, and suitable infrastructures.

다음으로, progress testing 의 구현은 종종 새로운 콘텐츠 개발을 요구하며, 이는 난제(n = 8)를 내포한다. 5,13,56,57,63,67-69 진행률 테스트 프로그램 설정의 복잡성은 다음을 요구한다. 

  • 확장된 문제 은행,
  • 데이터를 채점하고 심리측정학 분석을 수행하기 위한 명확한 절차
  • 결과를 보고하기 위한 피드백 메커니즘,
  • 정기적으로 데이터를 수집하고 분석하는 능력
  • 성적이 부진한 수험생에 대한 재교육 계획

청사진 개발은 평가된 지식이 너무 많고 과정과 테스트 내용 간의 직접적인 연결이 없기 때문에 종종 장애물로 간주된다.
Next, the implementation of progress testing often requires new content development, which poses a challenge (n = 8). 5,13,56,57,63,67–69 The complexities of setting up a progress testing program demand

  • an expansive item bank,
  • clear procedures for scoring and conducting psychometric analyses of data,
  • a feedback mechanism for reporting results,
  • an ability to regularly collate and analyze data, and
  • a plan for remediation of poor-performing examinees.

Blueprint development is often considered a hurdle because of the plethora of knowledge assessed and the absence of a direct link between course and test content.

마지막으로, 다른 학교와의 협업이 우선 촉진자로 인식될 수 있지만, 새로운 협업을 만드는 것은 도전으로 가득 찰 수 있습니다(n = 5). 5,52,63,70,71 단점은 품질 관리 절차가 도움이 될 수 있는 높은 수준의 중앙 집중화의 필요성을 포함합니다. 또한 학교는 교육과정 종료 목표(예: 기초 및 임상과학 주제, 난이도, 허용 가능한 항목 품질을 구성하는 항목 포함)와 업무 및 자원의 분배에 대해 의견이 다를 수 있다.
Finally, while collaborating with other schools might be first perceived as a facilitator, the creation of new collaborations can be fraught with challenges (n = 5). 5,52,63,70,71 Downsides include the need for a high level of centralization where quality control procedures would be beneficial. Additionally, schools may have disagreements about the content needed to meet end-of-training curriculum objectives (e.g., inclusion of both basic and clinical science topics, difficulty level, what constitutes acceptable item quality) as well as the distribution of work and resources.

주제 2: progress testing 구현의 촉진자로서 협업을 확립합니다.
Theme 2: Established collaboration as a facilitator of progress testing implementation.

진행률 테스트 구현 시 새로운 협업 구축은 난제로 간주되었지만, 진행 중인 협업과 확립된 협업은 촉진자로 간주되었습니다(n = 15). 8,9,50,52,54,57,58,63,69,70,72–76 비용절감을 위한 시험자료 공유를 넘어, 학교간의 협업이 광범위한 품질관리 절차에 의해 전반적인 시험품질을 강화하고, 커리큘럼 전반에 걸친 표준과 벤치마킹 관행을 비교하며, 평가할 정보를 산출하는 기회를 제공했다. 그리고 특정 분야의 교육을 개선한다.

While establishing new collaborations was deemed a challenge when implementing progress testing, ongoing and established collaborations were considered a facilitator (n = 15). 8,9,50,52,54,57,58,63,69,70,72–76 Going beyond sharing test material to reduce cost and single-institution efforts, collaboration between schools offered opportunities to strengthen the overall test quality by extensive quality control procedures, comparing standards and benchmarking practices across curricula, and yielding information to evaluate and improve education in particular fields.

주제 3: progress testing의 수용을 높이는 요인.
Theme 3: Factors that increase the acceptance of progress testing.

progress testing 수용을 높이는 4가지 주요 요인이 파악됐다.

첫째, 진도 테스트의 운영화학습자 수용에 영향을 미쳤다(n = 7). 예를 들어, 빈번한 테스트는 학습자의 진도 테스트에 대한 인식을 증가시켰다. 시험 내용도 학습자의 평가(n = 11)에 기여했다. 8,11,50,53,55,61,66,80–83 내용에 대한 포괄적인 접근법을 제시한 진도 시험은 문제 기반 학습 커리큘럼의 맥락에서 더 관련성이 있는 것으로 인식되었다. 학습 과정 초기부터 조우 관련 임상적으로 맥락화된 시험 항목이 존재해 호기심을 자극해 학습 과정을 강화해 학습 동기를 높였다.
Four main factors that increase the acceptance of progress testing were identified. First, the operationalization of progress testing influenced learner acceptance (n = 7). 51,53,66,74,77–79 For example, frequent testing increased learners’ appreciation of progress testing. Test content also contributed to learners’ appreciation (n = 11). 8,11,50,53,55,61,66,80–83 Progress tests that presented a comprehensive approach to content were perceived as more relevant in the context of problem-based learning curricula. The presence of clinically contextualized test items related to encounters from early in the learning process enhanced learner motivation by stimulating curiosity and therefore reinforcing the learning process.

학습자에게 제공되는 준비는 진행률 테스트의 수용도를 증가시켰다(예: 방향, 명확한 방향, 진행률 테스트의 목적 설명). 8,48,50,51,53–56,78,84–88 주니어 학습자들 사이에서 수용도를 높이기 위해, 학습 전략을 가이드하기 위하여 progress testing의 장점 뒤에 있는 철학을 설명하려는 노력을 초기에 다루는 것이 좋다. 예를 들어, 학습자의 진도 테스트에 대한 전반적인 수용도는 일반적으로 여러 차례에 걸쳐 증가했는데, 이는 평가의 이해관계(즉, 낮거나 높음)와 무관했다.
The preparation offered to learners increased their acceptance of progress testing (e.g., orientation, clear directions, explaining the purpose of progress testing) (n = 14). 8,48,50,51,53–56,78,84–88 To enhance acceptance among junior learners, efforts in explaining the philosophy behind progress testing practices merit being addressed earlier to guide their learning strategies. For example, learners’ overall acceptance of progress tests generally increased with multiple sittings, as they became aware of their concrete knowledge growth; this was independent of the stakes (i.e., low or high) of the assessment.

학습자에게 제공된 피드백은 progress testing에 대한 평가에도 영향을 미칩니다. (예: 점수 비교, 진행률 테스트 후 문답 사본) (n = 26). 충분하고 개인화된, 상세하고 시기 적절하며 구체적인 피드백을 통해 학습자가 진행률 테스트에 대한 수용도를 높였습니다. 피드백 관행에 대한 학습자의 평가는 제공된 정보의 유형에 따라 달라집니다. (예: 차원 및/또는 전문 분야별 하위 점수, 지식 증가의 척도, 강점과 약점의 식별, 동료들과의 비교)

The feedback offered to learners also influenced their appreciation of progress testing (e.g., score comparison, copy of the questions and answers after the progress test) (n = 26). 1,10,49–51,53–55,60,69,70,77–79,84,86–96 Sufficient, personalized, detailed, well-timed, and specific feedback enhanced learners’ acceptance of progress testing. Learners’ appreciation of feedback practices depended on the type of information provided (e.g., subscores per dimensions and/or specialties, a measure of their knowledge growth, identification of strengths and weaknesses, a comparison with their peers).

마지막으로, 평가의 부담은 학습자의 평가(n = 8)에 영향을 미칠 수 있습니다. 5,16,49,50,83,88,97,98 아마도 놀라운 것은 진도 테스트의 형성적 사용이 일반적으로 고부담 총괄 평가에 비해 스트레스가 감소했다는 것입니다.

Finally, the stakes of the assessment can influence learners’ appreciation (n = 8). 5,16,49,50,83,88,97,98 Perhaps not surprisingly, the formative use of progress testing generally decreased stress compared with high-stakes summative assessments.

주제 4: 진행률 테스트 사용의 결과 및 결과.
Theme 4: Outcomes and consequences of progress test use.

우리는 progress testing의 성과와 결과를 개인 수준과 프로그램 수준의 두 가지 주요 범주로 분류했다.
We grouped outcomes and consequences of progress testing into 2 main categories: individual-level and program-level. 

개인 수준의 결과 및 결과(예: 학습자)의 경우 progress testing는 학습자가 더 깊은 학습 전략을 채택하도록 장려했다(즉, 학습에 대한 접근 방식에 영향을 미치고 새로운 학습 방법을 촉진). (n = 24) 시험이 본질적으로 포괄적이기 때문에 진도 시험에서 학습 전략으로서의 벼락치기는 제한적으로 사용된다. (즉, 전체 커리큘럼을 포함하는 시험을 위해 공부하는 것은 어렵다.)  또한 진행률 테스트는 학습자 지식의 증가에 기여했으며(n = 41), 지식 격차 식별에 사용되었다(n = 13).
For individual-level outcomes and consequences (e.g., the learners), progress testing encouraged learners to adopt deeper learning strategies (i.e., influence approach to learning and promote new ways of learning) (n = 24). 5,6,8,16,48–51,53,55,58,63,68–70,74,78,83,88,91,92,95,97,99 Cramming as a studying strategy is of limited use in progress testing because such tests are comprehensive in nature (i.e., it is difficult to study for a test that covers the entire curriculum). Progress testing also contributed to an increase in learner knowledge (n = 41) 3,5,6,8–10,12,14,49,51,55–59,65–69,84,86,87,91,93,95,98–112 and was used to identify knowledge gaps (n = 13). 3,5,6,8,11,49,53,55,66,69,83,95,113

대부분 긍정적인 결과가 관찰되었지만, 다양한 수준의 학습 성장이 발견되었다. 좀 더 구체적으로, 진도 시험에 대한 학습 곡선은 시간이 지남에 따라 감소하기 전에 커리큘럼의 초기 몇 년 동안 더 중요했으며, 이는 학습 성장이 시간에 따라 감속되었음을 시사한다(n = 6). 55,66,94,100,107,109 일부 저자들은 제한된 학습 성과, 즉 제한된 점수 증가(n = 9)를 관찰하기도 했다. 6,16,50, 74, 83,8, 98, 97, 97, 103 이러한 제한된 성과는 대부분 [블록 테스트의 존재, 본질적인 동기 부족 또는 연구의 방법론적 문제](예: 작은 표본)에 기인한다.
While mostly positive outcomes were observed, varying levels of learning growth were found. More specifically, the learning curve on progress testing was more significant in the early years of a curriculum before decreasing over time, suggesting that learning growth decelerated over time (n = 6). 55,66,94,100,107,109 Some authors even observed limited learning outcomes, that is, limited score increase (n = 9). 6,16,50,74,83,88,95,97,103 These limited outcomes were mostly attributed to the presence of block testing, a lack of intrinsic motivation, or even methodological issues with studies (e.g., small samples).

[프로그램 수준]에서, progress testing 는 프로그램 내에서 학습자 진행에 대한 포괄적이고 종적인 그림을 제공할 수 있는 평가 전략으로 간주되었다(n = 11). 따라서 Progress testing 는 종종 커리큘럼 평가를 위한 풍부한 자료 출처로 간주되었다(즉, 커리큘럼 갭을 강조) (n = 20). 

At the program level, progress testing was seen as an assessment strategy that can provide a comprehensive and longitudinal picture of learner progression within the program (n = 11). 5,6,8,56,61,70,71,77,91,98,106 As such, progress tests were often considered to be a rich source of data for curriculum evaluation (i.e., by highlighting curricular gaps) (n = 20). 1,5,6,8,10,49,54,57,61,70,75,79,89,90,100,108,114–117

논의
Discussion

주제에 대한 기사가 늘어나는 것을 볼 수 있듯 Progress testing 의 인기가 높아지고 있다. 새로운 평가 전략, 특히 Progress testing 과 같이 복잡한 전략의 구현은 잠재력을 완전히 달성하기 위해 여러 이해 관계자의 참여를 요구한다. 우리가 진보 시험의 구현에는 여러 당면 과제를 강조해 왔다, 우리도 지속적의 교육자들 및 관리자, 이상적으로는 그들의 내재적 동기 이 평가 형식으로 참여하고 있는 시험에 대한 학생들의 수용을 늘릴 수 있는 방법을 확인하였다. 증가된 내재적 동기, 차례로 학생의 학습에 기여해야 한다.

Progress testing is increasing in popularity, as can be seen by the growing number of articles on the topic. The implementation of a novel assessment strategy, especially one as complex as progress testing, requires the buy-in of several stakeholders to achieve its full potential. While we have highlighted several challenges to the implementation of progress testing, we also identified ways in which educators and administrators can increase students’ acceptance of progress testing and, ideally, their intrinsic motivation to participate in this assessment format. Increased intrinsic motivation should, in turn, contribute to student learning.

Progress testing의 성공적인 이행을 위해 잠재적인 조건 다른 학교나 기관이 참가한 강한 협력을 포함한다. 새로운 협업을 개발하는 것은 처음에는 어려울 수 있지만, 이러한 파트너십은 Progress testing의 구현 가능성을 크게 높인다. 평가 품질에 관한 최근 연구에서 보듯이, 평가 전략을 평가할 때 실현 가능성은 중요한 고려 사항이다. 프로그램, 학교 및 기타 조직은 공통 목표를 향해 협력하고 progress testing 의 개발 및 구현에 협력할 때 작업량을 공유할 수 있으므로 이 작업과 관련된 타당성을 높일 수 있다. 또한 콘텐츠 개발 등의 업무 공유를 통해 협력 당사자가 공유하는 검토 프로세스를 구현하여 progress testing 의 품질을 높일 수 있는 기회가 있다. 교수진의 부담을 줄이면 진도 시험에 대한 수용도가 높아질 수 있다. 협업의 대안은 작업을 완전히 아웃소싱(예: progress testing 구매)하여 현지 팀의 부담을 줄이는 것일 수 있습니다.
Potential conditions for the successful implementation of progress testing include a strong collaboration with other schools or organizations. While developing new collaborations can be challenging at first, 5,52,63,70,71 these partnerships greatly increase the feasibility of implementing progress testing. 8,9,50,52,54,57,58,63,69,70,72–76 As seen in recent work on the topic of assessment quality, feasibility is an important consideration when evaluating an assessment strategy. 118,119 Programs, schools, and other organizations can share the workload and thus increase the feasibility associated with this task when working together toward common objectives and collaborating on the development and implementation of progress testing. Moreover, through sharing content development and other tasks, there is an opportunity for increasing the quality of progress tests by implementing review processes shared by the collaborating parties. Reducing the burden on faculty members can increase their acceptance of progress testing. An alternative to collaboration could be to outsource the work completely (e.g., by buying a progress test), thus reducing the burden on the local team.

[학습자 수용]은 평가 전략을 구현할 때 중요한 관심사이기도 합니다. Ricci와 동료들은 학생들이 새로운 평가에 매우 비판적일 수 있다는 것을 관찰했다. 다른 저자들은 또한 학생들이 평가 방정식의 중요한 이해당사자라는 견해를 지지한다. [학생들의 참여]는 [평가가 완전한 잠재력(즉, 학생 학습에 기여)에 도달할 가능성]에 큰 영향을 미칠 수 있다. 우리의 데이터는 학생들의 사기가 저하되고 결과적으로 학습에 거의 영향을 미치지 않는 등 학생들의 진도 테스트 수용에 미치는 영향을 보여주었다. [명확한 피드백을 제공]하고 [발달시험에 대한 오리엔테이션]을 제시하는 것이 이러한 잠재적인 부정적인 결과에 대항하는 방법이었다. 게다가, 학습 패러다임을 위한 평가를 선호하기 위해 [지역 문화의 변화]는 학생들의 발달시험에 대한 수용도를 증가시켰다.
Learner acceptance is also an important concern when implementing an assessment strategy. 118,119 Ricci and colleagues 120 observed that students can be very critical of novel assessments. Other authors also support the view that students are important stakeholders in the equation of assessment. 121–126 Student buy-in can greatly impact the likelihood that an assessment will reach its full potential (i.e., contribute to student learning). 5,50,51,53,78,83,91,92,95 Our data showed the impact on student acceptance of progress testing, with lack of buy-in decreasing their morale and subsequently showing little impact on their learning. 16,53,61 Providing explicit feedback 50,53,60,77,79,84,86–88,91,92,94,95 and offering an orientation to progress testing 8,48,54–56,78,86 were ways to counter this potential negative consequence. In addition, a change in local culture, to favor an assessment for learning paradigm, increased students’ acceptance of progress testing. 50,51,53,69,70,78,83,92,95

[시험을 치르는 행위]를 통한 [적극적인 지식 생산]은 반복적인 학습 시간에 비해 정보의 장기 보존에 더 효과적이라는 것이 입증되었다. 이런 식으로 발달시험은 학습자가 반복적으로 시험을 완료해야 하기 때문에 학생 학습에 기여할 수 있다. [반복적인 테스트]는 [정보 검색의 행위]를 통해 향상된 학습과 정보 보존을 촉진한다. 발달시험은 또한 부분적으로 평가된 많은 양의 지식을 포함하는 교육의 최종 커리큘럼 목표를 사용하여 학습을 촉진한다. 진도 테스트는 테스트 지향 학습 전략(예: 테스트에 대한 공부, 암기, 주입식 주입)을 억제한다. 전체 커리큘럼을 포괄하는 한 번의 시험을 위해 공부하는 것은 사실상 불가능하기 때문이다. 게다가, 잦은 시험은 학습자들이 더 자주 공부하도록 격려하고 학습 기간을 띄워주며, 이는 다시 학습을 촉진하고 장기 보존을 강화한다. 반복 테스트는 또한 교육 초기 단계에서 어려움을 겪고 있는 학습자를 식별하는 데 도움이 되며, 이는 교수진이 신속한 교정 및 기타 개입을 제공할 수 있도록 하는 기능입니다.

Active production of knowledge through the act of taking a test has proven more effective for long-term retention of information compared with repeated studying sessions. 127–130 In this way, progress testing can contribute to student learning as it requires learners to repeatedly complete the test. Repeated testing promotes enhanced learning and information retention through the act of information retrieval. 127–130 Progress tests also promote learning, in part, through the use of end-of-training curriculum objectives, which involve a large volume of knowledge assessed. Progress testing discourages test-directed learning strategies (e.g., studying to the test, memorization by rote, cramming) because it is virtually impossible to study for a single examination that covers an entire curriculum. 6,16 In addition, frequent testing encourages learners to study more often and space out study periods, which in turn promote learning and enhance long-term retention. 127 Repeated testing also helps to identify learners who are struggling at an earlier stage in their training, a feature that allows faculty to offer rapid remediation and other interventions. 6,66

발달시험 점수는 교육과정 평가를 위한 풍부한 자료 출처를 제공하기 때문에 기관들에게 귀중한 결과이다. 발달시험 점수는 [커리큘럼 격차를 파악하고 교수개발을 지원]하는 데 사용될 수 있다. 진행률 테스트에 의해 제공되는 지식 성장의 종적 척도는 대다수의 학습자가 어려움을 겪었고 제한된 장기적 지식 보유를 가진 곳을 강조할 수 있다. 이렇게 파악된 격차는 커리큘럼 개선 결정을 안내하고 교수진 개발이 필요한 부서를 특정할 수 있습니다. 일부 커리큘럼은 발달와 관련하여 수집된 데이터를 기반으로 수정되었으며, 다른 커리큘럼은 커리큘럼의 개요를 갖는 것이 유용하다는 것을 발견했다.

Progress test scores are a valuable outcome for institutions as they provide a rich source of data for curriculum evaluation. Progress test scores can be used to identify curricular gaps and support faculty development. The longitudinal measure of knowledge growth offered by progress tests can highlight where a majority of learners have had difficulty and limited long-term knowledge retention. These identified gaps can then guide curricular improvement decisions and pinpoint departments in need of faculty development. 127 A few curricula have been revised based on data collated around progress testing, 54,89,100 while others found it useful to have an overview of their curriculum. 5,8,57,79,90,114,117

제한 사항
Limitations

이 범위 지정 검토에는 몇 가지 제한이 있습니다. 우리는 우리의 연구에 포함된 기사의 질을 평가하지 않았다. 스코핑 리뷰의 [사회 구성적 토대]와 일치하며, 그 목표는 주어진 주제에 대한 문헌의 폭과 깊이를 포착하는 것이다. 131 이 범위 검토의 주요 목표는, 기사의 품질을 평가하기보다는, 연구 설계를 기반으로 광범위하고 깊이 있는 문헌을 지도화하는map 것이었다. 마지막으로, 결과는 샘플에서 네덜란드 기사의 과잉 표현으로 인해 왜곡될 수 있다. 이는 그들이 이 평가 전략 개발에 기여했고 우리의 서술적 분석에서 보여지듯이 발달시험의 열렬한 사용자이기 때문에 예상되었다.

There are certain limitations to this scoping review. We did not assess the quality of the articles included in our study, which is consistent with the socioconstructive underpinnings of a scoping review, the goal of which is to capture the breadth and depth of the literature on a given topic. 131 Based on the study design, the main goal of this scoping review was to map broadly and deeply the literature on progress testing rather than assess the quality of articles. Finally, the results may be skewed by the over representation of articles from the Netherlands in our sample. This was expected as they contributed to the development of this assessment strategy and are, as illustrated in our descriptive analysis, fervent users of progress testing.

결론들
Conclusions

발달시험은 학습자가 교육 종료 커리큘럼 목표와 관련하여 평가되는 여러 컨텍스트에서 사용할 수 있는 종방향 평가입니다. 이 형식은 학습을 위해 테스트 강화 학습 개념화와 평가 원칙을 사용하며 주의 깊게 구현될 때 개인(예: 학습 결과) 및 프로그램(예: 커리큘럼 평가를 위한 데이터) 수준에서 긍정적인 결과를 보여준다. 학습자를 위한 시험 경험을 최적화(예: 진도 시험에 대한 근거 제공 및 빈번한 시험 기회, 시험 완료에 충분한 시간 허용, 상황별 질문 제시, 고품질 피드백 제공)하면 학습자가 발달시험에 대한 수용도를 높이고, 학습자의 발전에 미치는 잠재적 영향을 향상시킬 수 있다.

Progress tests are longitudinal assessments that can be used across multiple contexts in which learners are assessed with regards to the end-of-training curriculum objectives. This format uses a test-enhanced learning conceptualization and principles of assessment for learning and shows positive outcomes at individual (e.g., learning outcomes) and program (e.g., data for curriculum evaluation) levels when it is carefully implemented. Optimizing the test-taking experience for learners (e.g., providing a rationale for progress testing and frequent testing opportunities, allowing enough time for test completion, presenting contextualized questions, providing high-quality feedback) may enhance their acceptance of progress testing and its potential impact on their development.

 


Acad Med. 2022 May 1;97(5):747-757.
 doi: 10.1097/ACM.0000000000004507. Epub 2022 Apr 27.

Written-Based Progress Testing: A Scoping Review

Affiliations collapse

Affiliations

1V. Dion is an undergraduate medical education student, Faculty of Medicine and Health Sciences, Université de Sherbrooke, Sherbrooke, Québec, Canada. He was a research assistant to the Paul Grand'Maison de la Société des médecins de l'Université de Sherbrooke research chair in medical education, Sherbrooke, Québec, Canada, at the time this work was completed.

2C. St-Onge is professor, Department of Medicine, Faculty of Medicine and Health Sciences, Université de Sherbrooke, and the Paul Grand'Maison de la Société des médecins de l'Université de Sherbrooke research chair in medical education, Sherbrooke, Québec, Canada; ORCID: https://orcid.org/0000-0001-5313-0456.

3I. Bartman is medical education research associate, Medical Council of Canada, Ottawa, Ontario, Canada; ORCID: https://orcid.org/0000-0002-2056-479X.

4C. Touchie is professor of medicine, University of Ottawa, Ottawa, Ontario, Canada. She was chief medical education officer, Medical Council of Canada, Ottawa, Ontario, Canada, at the time this work was completed; ORCID: https://orcid.org/0000-0001-7926-9720.

5D. Pugh is medical education advisor, Medical Council of Canada, and associate professor, Department of Medicine, University of Ottawa and The Ottawa Hospital, Ottawa, Ontario, Canada; ORCID: https://orcid.org/0000-0003-4076-9669.

PMID: 34753858

DOI: 10.1097/ACM.0000000000004507

Abstract

Purpose: Progress testing is an increasingly popular form of assessment in which a comprehensive test is administered to learners repeatedly over time. To inform potential users, this scoping review aimed to document barriers, facilitators, and potential outcomes of the use of written progress tests in higher education.

Method: The authors followed Arksey and O'Malley's scoping review methodology to identify and summarize the literature on progress testing. They searched 6 databases (Academic Search Complete, CINAHL, ERIC, Education Source, MEDLINE, and PsycINFO) on 2 occasions (May 22, 2018, and April 21, 2020) and included articles written in English or French and pertaining to written progress tests in higher education. Two authors screened articles for the inclusion criteria (90% agreement), then data extraction was performed by pairs of authors. Using a snowball approach, the authors also screened additional articles identified from the included reference lists. They completed a thematic analysis through an iterative process.

Results: A total of 104 articles were included. The majority of progress tests used a multiple-choice and/or true-or-false question format (95, 91.3%) and were administered 4 times a year (38, 36.5%). The most documented source of validity evidence was internal consistency (38, 36.5%). Four major themes were identified: (1) barriers and challenges to the implementation of progress testing (e.g., need for additional resources); (2) established collaboration as a facilitator of progress testing implementation; (3) factors that increase the acceptance of progress testing (e.g., formative use); and (4) outcomes and consequences of progress test use (e.g., progress testing contributes to an increase in knowledge).

Conclusions: Progress testing appears to have a positive impact on learning, and there is significant validity evidence to support its use. Although progress testing is resource- and time-intensive, strategies such as collaboration with other institutions may facilitate its use.

 

목적적 표본에서 신호를 추론하기: 역량 평가에서 맥락의 역할(Med Educ, 2022)
Inferring signs from purposeful samples: The role of context in competency assessment
Marise Ph. Born1,2 | Karen M. Stegers-Jager3 | Chantal E. E. van Andel3

 

1 소개
1 INTRODUCTION

임상 교육 동안, 의대생의 실습 적합성은 관습적으로 현실적인 학습 및 작업 환경에서 성과에 대한 편의 샘플을 사용하여 평가된다. 이러한 소위 직장 기반 평가에서 평가자는 예를 들어 환자와 상호 작용하는 동안 특정 상황에서 학생들의 지식, 기술 및 태도를 평가하기 위해 직접관찰을 사용한다. 그러나, 의과대학은 학생이 [특정한 관찰된 상황]에서 어떻게 수행하는지에 관심이 있는 것이 아니라, 학생들이 다른 상황에서 수행할 수 있는 능력에 대해 [일반화하기 위해 관찰]을 사용할 수 있는 정도에 관심이 있다.1 다르게 말하면, CanMEDs 프레임워크에 정의된 것과 같은 [의사로서 노동 시장에 진입하는 데 중요한 역량]에 대한 [학생들의 일반적인 상태standing]에 대한 평가를 제공하는 데 관심이 있다.2 따라서 교육 연구자들 사이에서, [현재 WBA의 편의 표본]이 의과대학이 끝날 때 학생의 [전반적인 의료 역량 프로필을 추정하는 데 적합한지]에 대한 문제가 제기되었다. 임상 평가는 종종 상황에 따라 제한되고 특이적이기 때문이다.

During clinical training, medical students' fitness for practice is customarily assessed using convenience samples of performance in realistic learning and working environments. In these so-called workplace-based assessments, raters use direct observation to appraise students' knowledge, skills and attitudes in a particular situation, for example, while interacting with a patient. However, medical schools are not so much interested in how a student performs in a specific observed situation but rather in the extent to which they can use the observation to generalise about the students' ability to perform in other situations.1 Put differently, they are interested in providing an estimation of students' general standing on the competencies important for entering the labour market as medical doctor such as those defined in the CanMEDs framework.2 Among educational researchers, the issue therefore has been raised of whether the current convenience samples of workplace-based assessments are appropriate for extrapolating a student's overall medical competency profile at the end of medical school, given that clinical assessments are often context bound and specific.

예를 들어, [하나 또는 두 개의 대인관계 상황을 관찰함]으로써 학생들의 [대인관계 기술에 대한 일반적인 결론]을 도출하는 것이 가능한지 궁금해 할 수 있다. 맥락특수성 다음으로 [다차원성]의 문제가 있다: 대부분의 학생-환자 상호 작용은 학생들이 여러 역량을 통합하고 수행할 것을 요구한다.1 작업장 기반 평가는 여러 역량을 통합적으로 평가할 수 있는 샘플을 제공하기 때문에 매력적이지만, 3 이러한 평가는 [개별 역량의 숙련도]를 구별하기 어렵게 만든다. 본 논문의 목표는 작업장 기반 평가의 편리한 샘플링보다 목적적합한 특성 분류법을 사용하여 어떻게 학생들의 일반적인 역량 프로파일을 보다 미묘한 방식으로 고려하기 시작할 수 있는지 조사하는 것이다. 우리는 또한 의사 수행의 어떤 요소가 의대생에서 평가하기에 시기상조이며, 의사 경력의 어떤 순간에 그것들을 측정하는 것이 적절해지는지에 대한 문제를 탐구한다. 심리학 분야에서 차용하여, 우리는 우리의 목표를 [(목적적인) 샘플]로부터 [징후(실습할 준비가 되었다는)를 추론]할 필요성으로 설정한다.

One may, for instance, wonder whether it is possible to draw general conclusions about students' interpersonal skills from the observation of one or two interpersonal situations. Next to context specificity, there is the issue of multidimensionality: most student–patient interactions require students to integrate and perform several competencies.1 Although workplace-based assessments are attractive because they provide samples that enable assessing multiple competencies in an integrated manner,3 these make it harder to distinguish mastery of individual competencies. This paper's goal is to examine how we might begin to consider students' general competency profiles in more nuanced ways by using a taxonomy of characteristics that can lead to purposeful rather than convenience sampling of workplace-based assessments. By implication, we also explore the issue of which elements of physician performance are premature to assess in medical students and at what moment in a doctor's career it will become appropriate to measure them. Borrowing from the discipline of Psychology, we frame our goal as the need to infer signs (that one is ready for practice) from (purposeful) samples.

실제 업무 수행 샘플을 사용하여 전문 역량을 평가하는 것은 [샘플 접근법]의 한 예로 간주될 수 있으며, 이는 대표적인 [성과 또는 행동의 샘플이 미래의 성과 또는 행동의 예측자로 사용되는 상황]을 가리킨다.4 표본 접근법은 일반적으로 [신호 접근법]과 대조된다. [신호 접근 방식]에서, (신호) 선택 맥락에서 일반적으로 적용되는 것처럼, 인지 능력 및 성격 특성(= 기호)과 같은 [구별 가능한 구성, 특성 또는 기술]이 성과를 예측하는 데 사용된다. 비록 건전한 평가가 성과를 예측하기 위해 성격 특성을 사용하는 것을 옹호하지는 않지만, [성적]조차도 인지 능력, 성격 특성 및 학습 능력에 영향을 받는 다면 [복합 측정]으로 간주될 수 있다. 5,6 마찬가지로, 개인에게 전문적인 활동을 맡기 위해 식별된 일반적인 조건은 능력, 성실성, 신뢰성 및 겸손이라는 점에서, [의과대학 시절에 취해진 척도]들이 간접적으로 [성격 특성을 포함할 가능성]이 있음을 시사한다.
The use of samples of performance from real practice to assess professional competence can be regarded as an example of the samples approach, which refers to a situation where a sample of representative performance or behaviour is used as a predictor of future performance or behaviour.4 The samples approach is usually contrasted with the signs approach. In the signs approach, as commonly applied in (personnel) selection contexts, distinguishable constructs, traits, or skills, such as cognitive abilities and personality traits (= signs) are used to predict performance. Although sound assessments do not advocate for the use of personality traits to predict performance, even grades can be considered multifaceted compound measures influenced by cognitive ability, personality traits and study skills.,5, 6 Similarly, the general conditions identified for entrusting individuals with a professional activity are ability, integrity, reliability and humility,7 further suggesting that measures taken during medical school are likely to, indirectly, include personality traits.

두 접근 방식 사이의 중요한 차이는 [샘플 접근 방식]에서 구인이 개별적으로 측정되지 않고 작업을 수행하기 위한 기술 레퍼토리를 입증하는 방법으로 통합 방식으로 측정된다는 것이다. 이 접근법의 강점은 [행동 일관성]의 개념에 있다: 행동 조치의 예측 타당성은 이 행동과 예측되는 미래 행동이 더 비슷할수록 더 높을 것이다.5 그러나, 이것이 바로 의대생들의 일반적인 능력 수준을 예측하는 것이 목표일 때 문제를 복잡하게 만드는 것이다.

  • [샘플]은 [특정 상황에서 수행능력]을 예측합니다. 그러면 [측정되지 않은 다른 상황]에서 [수행능력을 일반화]하려면 어떻게 해야 합니까?
  • 또 다른 단점은 [척도의 다면성] 때문에 학생이 [특정 상황에서 왜 성적이 떨어지는지] 명확하지 않은 경우가 많다는 것이다. 이렇게 하면 샘플은 진단 도구로서의 가치가 감소합니다.

그렇다면, 문제는 어떻게 우리의 샘플이 우리가 징후를 추론할 수 있도록 할 수 있는가 하는 것입니다.

An important difference between both approaches is that, in the samples approach, constructs are not measured separately, but in an integrated way by means of demonstrating a skills repertoire to perform a task. The strength of this approach lies in the notion of behavioural consistency: the predictive validity of the behavioural measures will be higher the more this behaviour and the to be predicted future behaviour are alike.5 However, this is exactly what complicates matters when the aim is to predict medical students' general competency level.

  • Samples predict performance in specific situations, so how do we then generalise to performance in other situations that were not measured?
  • Another disadvantage is that due to the multifaceted nature of the measures, it is often not clear why a student underperforms in a particular situation. This reduces the value of samples as diagnostic instruments.

So, the question is how can we ensure that our samples enable us to infer signs?

우리는 작업 분석의 결과로부터 MD의 직무에 필요한 KSAO(지식, 기술, 능력 및 값 8을 포함한 기타 특성)를 정의하는 것부터 시작하는 것이 중요하다고 주장할 것이다. 좋은 소식은 그러한 작업 분석이 이미 의료 분야에 대해 어느 정도 실시되었고, CanMEDs 및 ACGME 역량을 포함한 현재 의료 커리큘럼의 기초가 되는 역량 프레임워크의 정의로 이어졌다는 것이다.2, 9 여기서부터, 문제는 [임상실습 재직 중에 채취한 샘플]이 [다양한 맥락에서 예측될 수 있는 징후를 추론하기에 충분한 정보를 제공]하도록 어떻게 보장할 것인가 하는 것이다. 이 문제를 해결하기 위해, 우리는 스미스의 프레임워크를 사용하여 [개인의 특성]을 소위 보편성, 직업성 및 관계성의 범주로 분류한다. 이를 통해 [표본에서 신호로 추정하려고 할 때 맥락적 요인의 영향이 개별 특성의 범주에 따라 달라진다]는 것을 제안한다.

We will argue that it is important to start with defining the KSAOs (knowledge, skills, abilities and other characteristics including values8) that are required for the job of MD,2 resulting from work analysis. The good news is that—to some extent—such work analyses have already been conducted for the medical field and have led to the definition of competency frameworks underlying the current medical curricula, including CanMEDS and ACGME competencies.2, 9 From here, the question becomes how do we ensure that the samples we take during clerkship provide sufficient information to infer signs that will be predictive across various contexts. To address this issue, we use Smith's framework10 to classify individual characteristics into the so-called categories of universals, occupationals and relationals to propose that the effects of contextual factors when trying to extrapolate from samples to signs are dependent upon the category of individual characteristics.

이를 통해, 본 논문은, [역량의 다양한 측면이 어떻게 서로 다른 일반성을 갖는다고 생각될 수 있는지]를 탐구함으로써, [의과대학에서 직장 기반 평가의 현재 영역에 대한 비판적 검토][평가를 위한 목적적 샘플링 프레임워크]를 제공한다. [스미스의 프레임워크]는 평가와 인원의 선택이라는 맥락에서 개발되었으며 평가 조치의 내용과 향후 작업장 성과와의 관계 사이의 관계를 설명하기 위한 전반적인 관점을 제공한다. 평가에서 유용한 결과를 예측할 수 있는지 여부에 초점을 맞춘 유효성 모델입니다(cf). 보먼 외.11). Smith의 연구를 사용하기 위한 우리의 선택은 의대생들의 평가에서 도출될 수 있는 추론의 유형에 대한 그것의 관련성이다. 메식(Messick)의 것과 같은 다른 타당성 모델 12는 우리의 목적에 유용하기에는 너무 추상적인 것으로 간주되었다.
In doing so, this paper offers a critical review of the current domain of workplace-based assessment in medical school and a framework for purposeful sampling for assessment by exploring how different aspects of competence might usefully be thought of as having different generalisability. Smith's framework was developed in the context of assessment and selection of personnel and offers an overall view to explain relationships between the content of assessment measures and their relationships with future workplace performance. It is essentially a validity model, focusing on whether assessments can predict useful outcomes (cf. Borman et al.11). Our choice for using Smith's work is its relevance for the type of inferences that can be made from assessments of medical students. Other validity models, such as Messick's,12 were viewed as too abstract to be useful for our purposes.

2 작업 분석에서 임상 역량 평가까지
2 FROM WORK ANALYSIS TO ASSESSING CLINICAL COMPETENCIES

임상 역량을 식별하기 위해 일반적인 규칙이 특정 사례 집합에서 파생되는 귀납적 방법을 사용할 수 있다. 어떤 일련의 사례가 적절한지를 정의하기 위해, 종종 어떤 직업에 대한 일련의 중요한 요구 사항을 추출하기 위해 결정적 사건(예외적으로 좋은 행동과 나쁜 행동의 일화적 사건)이 사용된다.13 이것은 알려진 [가장 오래된 작업 분석 기법]이다.14 이 방법은 [최근에 졸업한 의사가 수행할 수 있는 일련의 전문적인 행위]를 공식화하기 위한 최근의 이니셔티브에서 볼 수 있다. 학부 커리큘럼과 관련된 이러한 이니셔티브는 대부분의 대학원 의료 교육 프로그램에서 신뢰할 수 있는 전문 활동(EPA)에 초점을 맞추는 방향으로 전환되었다.16 예에는 임상 상담과 동료와의 커뮤니케이션 및 협업이 포함된다.. 그런 다음 [제안된 전문 활동 세트]를 생성하면 임상 훈련 중에 어떤 샘플이 필요한지 결정하여 학생들의 이러한 활동 실행 능력에 대한 진술을 가능하게 한다. 이 방법에 내재된 위험은 구조물이나 역량이 표본에 의해 적절히 커버되지 않는다는 것이다. 역량은 [사람의 역량](예: 의학 지식, 의사소통 기술 및 전문적 태도)을 설명하는 반면, EPA는 [전문적 실무 단위](예: 복강경 담낭 절제술 수행 작업)이다.16 따라서 표본 추출이 적절하다는 것표본이 부족하지 않으며, 관련 없는 측면을 포함하지 않는다는 것을 의미한다.14

To identify clinical competencies, one could use an inductive method in which generic rules are derived from a set of specific cases. To define which set of cases is relevant, critical incidents—anecdotal incidents of exceptionally good and exceptionally poor behaviour—are often used to extract a set of critical requirements for a profession.13 This is the oldest work analysis technique known.14 This method can be seen in recent initiatives to formulate a set of professional activities that recently graduated medical doctors need to be able to execute.8, 15 These initiatives regarding undergraduate curricula followed a shift to focusing on entrustable professional activities (EPAs) in most postgraduate medical training programmes.16 Examples include clinical consultation and communicating and collaborating with colleagues. Generating a proposed set of professional activities then allows one to decide which samples are required during clinical training to enable statements about students' ability to execute these activities. A risk inherent in this method is that constructs or competencies are not adequately covered by the samples. Whereas competencies describe people's capacities (e.g., medical knowledge, communication skills and professional attitude), EPAs are units of professional practice (e.g., the task of conducting a laparoscopic cholecystectomy). 16 Adequate sampling, therefore, implies that samples are not deficient and do not contain irrelevant aspects.14

대안은 연역법으로, [특정 상황에 일반적인 규칙을 적용하는 것]을 의미한다. 임상 훈련의 경우, 이것은 필요한 샘플 세트가 속성 지향적 직무 분석(능력, 특성, 적성 등), 문헌 검토 또는 기존 이론에 기초하여 연역적으로 생성된다는 것을 의미한다.17 네덜란드 의대를 위한 최근 업데이트된 Raamplan에 설명된 CanMEDs 역량에 기초한 학부 의료 훈련을 위한 의도된 학습 결과는 그러한 직무 분석의 예를 제공한다. 그러나 주요 과제는 임상 교육 중에 이러한 모든 학습 결과를 의도적으로 평가하는 것이다. 이것은 학생들의 성적을 평가할 [다양한 상황들의 의도적인 표본 추출]이 필요하다. 
An alternative is the deductive method, which implies applying a general rule to a specific situation. For clinical training, this would mean that the set of required samples is generated deductively on the basis of an attribute-oriented job analysis (competencies, traits, aptitudes; e.g., Cook14), a literature review or an existing theory.17 The intended learning outcomes for undergraduate medical training based on the CanMEDs competencies described in the recently updated Raamplan for Dutch medical schools offers an example of such a job analysis.8 The main challenge, however, is to ensure that all these learning outcomes are intentionally assessed during clinical training. This requires deliberate sampling of various situations in which students' performance is going to be assessed.

사무직에서 연역적 접근법과 귀납적 접근법의 장점과 단점을 고려하여, 우리는 다음을 제안하고 Smith의 모델을 사용하여 하이브리드 방법이 어떻게 만들어질 수 있는지 탐구한다.
Given the described advantages and disadvantages of both the deductive and inductive approaches in clerkships, we propose the following and use Smith's model to explore how a hybrid method might be created:

  • 제안 1.모든 학습 성과가 임상실습 기간 중에 의도적으로 평가되도록 하려면, 즉 임상 훈련에서 샘플(작업장 기반) 평가에 대한 연역적 및 귀납적 접근 방식의 조합이 필요하다.
  • Proposition 1.To ensure that all learning outcomes are intentionally assessed during clerkships, a hybrid method is needed, that is, a combination of the deductive and inductive approach to sample (workplace-based) assessments in clinical training.

3 보편, 직업 및 관계
3 UNIVERSALS, OCCUPATIONALS AND RELATIONALS

의사로서 일하기 위해 요구되는 역량은 Smith의 모델에서 다양한 범주의 직업 특성에 속합니다.10 그는 [역량이 상황에 따라 달라지는 정도]에 초점을 맞추며 다음의 세 가지 직업 특성 영역을 구분합니다. 

  • 보편성, [모든 근로자에게 요구되는 특성]으로 상황에 의존하지 않는 보편성
  • 직업성, 즉 [특정 직업에 요구되는 특성]을 의미하지만 따라서 직무 관련 특성에 의존하는 다른 직업에는 해당되지 않는다
  • 관계성,[특정 조직 환경]에서 함께 일하는 습관적인 방법을 사용하는 데 필요한 관계입니다.

이제 각 범주에 적합한 역량에 대한 직관적인 예를 제시하고 행동의 샘플에서 부호(일반 역량에 대한 주장)를 추출하는 것이 쉬울지 문제가 있을지를 추론함으로써 이 세 가지 범주에 대해 더 심도 있게 논의할 것이다.

The competencies required to work as a doctor belong to different categories of job characteristics in Smith's model.10 He focuses on the degree to which competencies are context dependent, differentiating between the following three domains of job characteristics: 

  • universals, which are characteristics required by all working individuals and thus not context-dependent; 
  • occupationals, which refer to characteristics required by certain jobs but not others that, therefore, are dependent on task-related features of an occupation; and 
  • relationals, which are required in a specific organisational context with habitual ways of working together.

We will now discuss these three categories more in depth by offering intuitive examples regarding what competencies fit into each category and deducing, thereby, whether extracting signs (claims about general competencies) from samples of behaviour is likely to be easy or problematic.

4 유니버설
4 UNIVERSALS

[보편적 역량]은 여러 직업과 맥락에 걸쳐 관련이 있다. Smith의 인지 능력, 생명력(신체적, 정신적 에너지 18) 및 직업 정신(양심성 포함)에 대한 보편성 외에, 우리는 민첩성(일명 적응성 19)을 오늘날의 보편성으로 간주한다. 신기술과 환자 인구 변화를 통한 업무 변화는 직원들이 훨씬 더 적응력이 있어야 한다. 스미스는 보편성을 [모든 직업에 대해 0이 아닌 예측 타당성을 갖는 구인]으로 간주한다.
Universal competencies are relevant across jobs and contexts. Next to Smith's universals of cognitive capacities, vitality (physical and mental energy18) and work ethos (including conscientiousness), we also regard agility (aka adaptability19) as a present-day universal. Changes in work through new technology and changing patient populations require employees to be much more adaptable. Smith regards universals as constructs that would hold a nonzero predictive validity for all jobs.

그런 다음 문제는 특정 의료 작업 상황에서 '보편적' 행동을 샘플링하여 다른 의료 작업 및 환경에서 이러한 행동을 예측할 수 있는지 여부가 된다. 우리의 전제는 그러한 샘플링이 신뢰성 있고 구성 가능한 방식으로 수행된다면, 14 이것은 실제로 가능하다는 것이다.

  • 이 개념을 뒷받침하기 위해, 곤잘레스-뮬레 등의 메타 분석은 많은 직업 유형과 환경에서 일하는 성인들 사이의 [인지 능력]의 측정이 어떻게 일반적인 직업 성과를 강력하게 예측하는지 보여준다.
  • Koczwara 등은 종단적 연구에서 다양한 방법(GMA 테스트 및 상황별 측정)으로 측정한 졸업생 간의 [인지 능력]이 모의 환자 상담 및 GP 훈련에 사용되는 작업 관련 그룹 토론과 같은 의료 작업과 관련된 시뮬레이션 연습을 예측했다고 보고했다. 
  • 더욱이, He 등의 메타 분석은 직업과 수행 등급 유형에 걸쳐 예측되는 [성실성]의 척도를 보여주는 반면,
  • Hojat 등은 [성실성]이 의대와 의료 직업에서 수행에 대한 가장 강력하고 일관된 성격 예측 변수라고 보고한다.

The question then becomes whether sampling ‘universal’ behaviour in a specific medical work situation can predict this behaviour in any other medical work and setting. Our premise is that if such sampling is done reliably and in a construct-valid way,14 this indeed is possible.

  • In support of this notion, a meta-analysis by Gonzalez-Mulé et al.20 shows how measures of cognitive ability among working adults across many job types and settings strongly predict general job performance,
  • while Koczwara et al.21 in a longitudinal study, reported that cognitive ability among graduates as measured in diverse ways (a GMA test and more contextualised measures) predicted simulation exercises related to medical work, such as a simulated patient consultation and a work-related group discussion used for selection into UK-training for GP.
  • Moreover, a meta-analysis by He et al.22 shows measures of conscientiousness to be predictive across occupations and types of performance ratings,
  • whereas Hojat et al.23 report this trait to be the strongest and most consistent personality predictor of performance in medical school and in the medical profession.

이러한 발견은 이러한 구인의 예측 타당성이 직업과 작업 환경뿐만 아니라 이러한 [보편성]을 측정하는 방법 전반에 걸쳐 유지된다는 것을 시사한다. 우리는 활력, 민첩성 및 작업 기질과 관련된 메타 분석에 대해 잘 알지 못하지만, 이러한 개념에 대해 유사한 발견을 예측할 수 있다. 따라서 이는 우리를 다음과 같이 이끈다. 
These findings suggest that the predictive validity of these constructs holds not only across jobs and work settings but also across the way these universals are measured. Although we are not knowledgeable of meta-analyses related to vitality, agility and work ethos, we would predict similar findings for these concepts. This, therefore, leads us to the following:

  • 제안 2.특정 의료 작업 환경에서 인지 능력, 활력(신체적 및 정신적 에너지), 작업 윤리(양심성 포함) 및 민첩성인 [보편적 역량]의 [신뢰할 수 있고 구성 가능한 표본 추출]은 [다른 의료 작업 환경 또는 의료 직업으로 일반화]될 수 있다.
  • Proposition 2.Reliable and construct-valid sampling of universal competencies, which are cognitive capacities, vitality (physical and mental energy), work ethos (including conscientiousness) and agility, in a specific medical work setting is generalisable to any other medical work setting or medical occupation.



이 명제는 [신뢰할 수 있고 구성 가능한 방식]으로만 수행된다면, 보편성을 샘플링하는 방법이 특별히 중요하지 않다는 것을 암시한다. 즉, 증거 수집에 대한 여러 접근 방식(즉, 서로 다른 평가 방법)을 사용할 수 있지만, 모두 타당성 증거에 의해 뒷받침되어야 한다. 따라서 [감독자에 의한 평가]와 같은 전통적인 방법 외에, [상황 판단 시험]과 같은 다른 방법, 동료, 간호사, 환자 및 감독자와 같은 관련 [타인에 의한 360° 평가], 학생이 특정 과제를 실제로 실행하는 대신 [수행하는 방법을 설명하고 묘사]하는 'walk-throughs'가 사용될 수 있다. 평가 방법의 선택에 영향을 미치는 요소는 시간과 비용과 같은 것들에 의해 주도되어 매우 현실적일practical 수 있다. [상황, 맥락, 시간에 걸친 성격 특성의 안정성]은 성격 심리학자들 사이에서 논의의 문제로 남아 있는 복잡한 문제이지만, 26,27 [성실성]은 상대적으로 높은 수준의 안정성을 보여주는 경향이 있는 하나의 성격 구조이며, 이것은 그것이 평가의 일반화를 해치지 않고 많은 상황, 맥락, 시간에 평가될 수 있음을 시사한다.

This proposition implies that the way universals are sampled is not particularly important, provided it is done reliably and in a construct-valid way. In other words, multiple approaches to gathering evidence (i.e., different assessment methods) can be used, but all need to be supported by validity evidence. Therefore, next to traditional methods such as ratings by supervisors, other methods like situational judgement testing,24 360° ratings by relevant others such as colleagues, nurses, patients and supervisors,25 and ‘walk-throughs’ during which students explain and describe how they execute certain tasks instead of actually executing them14 could be used. Factors influencing the choice of assessment method then could be very practical, driven by things such as time and costs. While the stability of personality traits across situations, contexts and time is a complex issue that remains a matter of discussion among personality psychologists,26, 27 conscientiousness is one personality construct that tends to show a relatively high degree of stability, suggesting it is assessable in many situations, contexts and times without harming generalisation of the assessment.

5 직업적
5 OCCUPATIONALS

스미스에 따르면, 직업성은 [특정 직무나 직업과 관련된 특성]이다. 직업의 예로는 특정 직업에서 효과적인 수행을 가능하게 하는 특정 인지 능력(예: 수치적 또는 언어적 기술), 특정 지식 및 특정 성격 특성이 있다. 스미스는 이러한 낮은 수준의 능력이 [일반적인 인지 능력(보편적)과 상당히 겹치는 것]을 보여주며, 성과와 선형적으로 관련이 있다고 보고한다.

According to Smith,10 occupationals are characteristics that are relevant to particular jobs or occupations. Examples of occupationals are specific cognitive abilities (i.e., numerical or verbal skills), specific knowledge and certain personality traits that enable effective performance in a particular job. Smith reports that these lower-level abilities show considerable overlap with general cognitive ability (a universal) and are linearly related to performance.

[직무 클러스터링]은 종종 [직무 또는 직무 그룹에 특정 능력이 필요하다]는 개념으로 시작됩니다. 의사를 위한 [특정 인지 능력]의 예로는 [임상 추론]이 있는데, 이는 진단 및/또는 치료 계획에 도달하기 위해 환자 정보를 해석하는 보건 전문가의 인지 과정으로 간주될 수 있다. 임상 추론은 의심할 여지 없이 [의업을 정의내리는defining 특성]이기 때문에 의사의 ['일반적generic' 직업성occupational]으로 간주될 수 있다. 한편, 특정 의료 분야 간의 관련성이 다르기 때문에 ['특이적specific' 직업성]으로 간주될 수 있는 직업도 있다. 예를 들어 눈과 손의 협응을 생각해 보자. 이 협응은 특히 외과 분야와 관련이 있지만 일반 의학 분야에서는 덜 관련이 있다.
Job clustering often starts with the notion that jobs, or groups of jobs, require specific abilities. An example of a specific cognitive ability for doctors is clinical reasoning, which could be considered as the cognitive processes of health professionals through which they interpret patient information to come to a diagnosis and/or treatment plan. Clinical reasoning is arguably the defining characteristic of the medical profession28 and therefore can be considered as a ‘generic’ occupational for medical doctors. On the other hand, there are also occupationals that differ in their relevance between specific medical domains and therefore may be considered ‘specific’ occupationals. Think for example of eye–hand coordination, which is particularly relevant to the surgical disciplines, but less so for general medicine.

  • 제안 3. 의료의 경우, 직업은 모든 의사의 직업과 관련된 [일반적 직업성]과 특정 분야 내의 의사와 관련된 [특이적 직업성]으로 나눌 수 있다.
    Proposition 3.For the medical profession, occupationals can be divided into generic occupationals, which are relevant to all medical doctors' occupations, and into specific occupationals which are relevant for medical doctors within specific disciplines.

[일반적 직업성]의 범주에는 임상 추론, 진실성, 의사소통 기술(동료 및 환자와의 의사소통), 타인에 대한 관심, 스트레스 내성, 자기 중심적 학습 지향 등이 포함되지만 이에 국한되지는 않을 수 있다.
The category of generic occupationals includes, but may not be limited to, clinical reasoning, integrity, communication skills (communication with colleagues and patients), concern for others and for society, stress tolerance, self- and other-focused learning orientation.

[특이적 직업성]의 범주는 특정 분야에 따라 관련성이 있는 역량으로 구성된다. 여기에는 일반적인 직업의 하위 측면(예: 의사소통의 하위 측면으로서의 어린이와의 의사소통), 눈-손 조정/수동적 손재주(수술), 공간 인식(방사선학) 및 경계(마취)와 같은 역량이 포함된다.
The category of specific occupationals consists of competencies that are relevant depending on the specific discipline. These comprise competencies such as subfacets of generic occupationals (e.g., communication with children as subfacet of communication), eye–hand coordination/manual dexterity (surgery), spatial awareness (radiology) and vigilance (anaesthesia).

[일반적 직업성]과 [특이적 직업성] 사이의 차이를 고려할 때, 그렇다면 의과대학은 두 가지 유형 모두에 대해 어느 정도 그리고 어떻게 표본을 추출할 수 있는가 하는 문제이다. 의과대학이 학생들에게 광범위한 미래 업무 상황에 대비하도록 하기 때문에 의과대학 시절에는 임상적 추론과 같은 [일반적 직업성]에 집중하는 것이 논리적으로 보인다. 그러나 모든 의사가 임상 추론에 유능해야 한다는 데 동의하지만, 이를 정의하고, 가르치고, 평가하는 데 어려움이 존재한다.28 여기서 주요 쟁점은 이전과 마찬가지로 맥락 특이성이다. 즉, 임상 과제의 맥락은 학생의 수행과 필요한 임상 추론 유형에 영향을 미칠 것이다. 이는 [[특정 상황에서 (관찰된) 성과]를 통해 [일반적인 직업 임상 추론에서 역량]을 추정할 필요가 있음]을 의미한다. 하지만 어떻게 우리가 의과대학이 끝날 때 '임상추론'과 같은 일반적인 직업에서 일반적으로 유능하다는 것을 증명할 수 있도록 요구되는 구체적인 상황을 결정할 수 있을까요? 우리는 여기서 [샘플링에 대한 하이브리드 접근 방식]을 사용하는 것이 맥락과 과제에 걸친 의대생의 역량에 대한 진술을 개선하는 데 특히 유용할 것이라고 믿는다.
Given the distinction between generic and specific occupationals, the question then is to what extent and how can medical schools sample for both types. As medical schools seek to prepare students for a wide range of future work contexts, it seems logical to focus on generic occupationals, such as clinical reasoning, during medical school. But, while it is agreed that all medical doctors must be competent in clinical reasoning, challenges exist in defining, teaching and assessing it.28 The main issue here, as before, is context specificity29; that is, the context of the clinical task will have an influence on the student's performance and the type of clinical reasoning required. This implies that we need to estimate competence in the generic occupational clinical reasoning by means of (observed) performance in specific situations. But how do we decide on the specific situations that are required for us to be able prove at the end of medical school that a student is generally competent in a generic occupational such as ‘clinical reasoning’? We believe that here the use of a hybrid approach to sampling is likely to be particularly useful to help improve statements about medical students' competences across contexts and tasks.

위에서 언급한 바와 같이, [하이브리드 접근법]은 EPA의 형태를 취할 수 있는 일련의 '중요한critical' 전문 활동을 식별함으로써 [귀납적]으로 시작할 수 있다. 그러나 표본 추출에 유용하게 쓰려면 이러한 활동이 구체적이고 문맥화되어야 한다. 예컨대 [일반적인 활동으로의 임상상담]을 활용하기보다는 [신경학이나 정신과 상담]처럼 의대생들이 임상훈련 중 숙달해야 하는 다양한 유형의 임상상담을 생각할 수 있었다. 최근 핵심 EPA 임상 상담을 위해 [16개의 하위 활동], 이른바 [nested EPA]가 제안되었다. 따라서, 하위 활동 표본 추출이 특정 직업 평가에 특히 관련이 있다고 제안한다. 그 다음 질문은 [[특이적 직업성]이 지역화된localized 활동이나 상황]을 (우리의 궁극적 목표인) [일반적 직업성]에 대한 무언가를 추론하기 위해 어떻게 사용하느냐가 된다. 
As alluded to above, the hybrid approach could start inductively by identifying a set of ‘critical’ professional activities, which could take the form of EPAs. In order to be useful for sampling, however, these activities should be concrete and contextualised. For example, rather than using the generic activity clinical consultation, one could think of the different types of clinical consultations that medical students must master during clinical training, such as the neurological or the psychiatric consultation. Recently, as many as 16 subactivities, so-called nested EPAs, have been suggested for the core EPA clinical consultation.15 We propose, therefore, that sampling subactivities is particularly relevant for assessing specific occupationals. The question then becomes how we subsequently use activities or situations within which specific occupationals are localised, to infer something about generic occupationals, which after all is our goal?

여기서 샘플링 평가 상황에 대한 [연역적 접근법]을 추가하는 것이 유용하다. 설명하자면, 모든 의사들에게 중요하다고 여겨지는 또 다른 기술, 즉 의사소통 기술을 성찰해 보자. Van der Vleuten 등 30은 의사소통 기술이 매우 맥락특이적임을 고려할 때, 의사소통 평가에 대한 [프로그램적 평가 접근 방식]을 사용할 것을 제안하는데, 이는 학생들의 의사소통 기술의 [여러 샘플을 더 오랜 기간에 걸쳐 수집하기 위해 다양한 방법을 사용한다는 것]을 의미한다. 광범위한 샘플링에서 역량을 '일반화'하는 [귀납적 접근법]의 가치에 동의하지만, 우리는 의사소통 역량이 의미하는 것의 정신을 포착하는 활동의 적절한 샘플링을 보장하기 위해 [역량 프레임워크와 이론적 모델에 기초한 체계적이고 연역적인 접근법]이 이 종적 접근법에 중첩되는 것이 중요하다고 생각한다. 

Here, the addition of a deductive approach to sampling assessment situations becomes useful. To explain, let us reflect on another skill that is considered important to all medical doctors: communication. Given that communication skills are highly context specific, Van der Vleuten et al.30 propose the use of a programmatic assessment approach to communication assessment, which implies using different methods to collect multiple samples of students' communication skills over a longer period of time. Although we agree with the value of this inductive approach of ‘generalising’ competence from broad sampling, we think it is important that a systematic, deductive approach based on competency frameworks and theoretical models be overlaid on this longitudinal approach to ensure adequate sampling of activities that capture the spirit of what is meant by communication competence.

또 다른 예로, 스티븐스와 캠피온이 정의한 [팀워크 지식, 기술, 능력의 모델]을 생각해 보자. 갈등 관리 역량, 공유된 문제 해결 역량 및 커뮤니케이션 능력과 같은 대인 관계 역량으로 구성된 이 모델은 팀워크에 기반한 선택 절차에 대한 [상황 판단 테스트]를 연역적으로 설계하는 데 사용되었다. 이상적인 방법으로 활동을 샘플링하려면 환자 조합(즉, 학생이 접하는 환자의 양과 다양성)을 고려해야 합니다. DeJong 등이 제안한 바와 같이, 환자 조합을 개별 학생의 특정 학습 목표와 요구에 맞게 조정하는 것을 고려할 수 있다. 요컨대, [사건이나 상황에서만 시작하는 것]과는 대조적으로, [연역적 접근법]은 [의사소통의 일부 측면]은 [실제 임상 실무에서 직접 관찰하는 전형적 방법]이 아닌 [다른 방법으로 측정되는 것이 더 낫다]는 결론을 이끌어낼 수 있다.

Another example, consider the model of teamwork knowledge, skills and abilities defined by Stevens and Campion.31 This model, consisting of, among others, interpersonal competences like conflict management competences, shared problem solving competences and communication competences, was used to deductively design a situational judgement test for selection procedures based on teamwork.31 To sample activities in an ideal manner, the patient mix (i.e., the quantity and the diversity of the patients encountered by students) must be taken into account. As suggested by De Jong et al., we might want to consider tailoring the patient mix to specific learning goals and needs of individual students.32 In sum, in contrast to starting from incidents or situations only, the deductive approach may lead to the conclusion that some aspects of communication would better be measured in other ways than by the typical way of direct observation in real clinical practice.

  • 제안 4. [연역적 접근법]은 [일반적 직업성]의 신뢰할 수 있고 구인-타당한 샘플링을 지원하는 반면, [귀납적 접근법]은 [특이적 직업성]의 [구인-타당한 샘플링]을 지원하는 데 특히 유용하다.
    Proposition 4.A deductive approach supports reliable and construct-valid sampling of generic occupationals, whereas an inductive approach is particularly useful for supporting reliable and construct-valid sampling of specific occupationals.

스미스에 따르면, [어떤 비인지적 역량]은 특정 직업에서 성과를 향상시킬 수 있다. 일반적으로 회계사로서 수행하는데 중요한 속성이 소방관으로서 수행하는데 중요한 속성과 같을 가능성은 낮다. 하지만 의사들에게 어떻게 그럴 수 있을까요? 전문분야의 차이에도 불구하고 모든 의사들에게 중요한 비인지적 역량이 있는가? 그리고 전문분야에 따라 모든 의사가 아닌 일부 의사들에게 중요한 특성이 있는가? [직무 분석]을 사용하여, Patterson 등은 의사가 특정 적성을 가진 전문 분야와 일치하도록 보장하는 데 도움이 될 수 있는 (임상 지식과 학문적 성취를 넘어선) 광범위한 속성을 식별했다. 그들은 연구된 전문 분야 간의 차이점보다 [유사성이 더 많았지만], 서로 다른 전문 분야 전문가들 사이에서의 [인식된 중요성의 차이]는 역량 영역의 맥락 특이성을 나타낸다고 결론지었다. 

According to Smith, certain noncognitive competencies may enhance performance in particular occupations. Generally, it is unlikely that attributes that are important for performing as an accountant are the same as those important for performing as a firefighter. But how is that for medical doctors? Are there noncognitive competencies that are important for all medical doctors, despite their specialty, and are there such characteristics that are important for some, but not all doctors, depending on their specialty? Using job analyses, Patterson et al.33 identified a wide range of attributes beyond clinical knowledge and academic achievement that may help ensure that doctors are matched with a specialty for which they have a particular aptitude. They concluded that although there were more similarities than dissimilarities between the studied specialties, differences in perceived importance by professionals from the different specialties indicate context specificity of competency domains.

예를 들어, 소아과에서는 의사소통과 공감능력이 가장 중요한 것으로 평가되었고, 마취과에서는 진실성과 경계가 가장 높은 평가를 받았다. 소아과와 산부인과에서, 그리고 산부인과에서, 팀 참여는 마취보다 더 중요하게 여겨졌다. 관련성의 차이 다음으로, 전문 분야 간의 맥락의 차이는 요구되는 역량의 질적 차이로 이어진다. 33 이것은 의사소통과 같은 [일반적 직업성]이 [특이적 직업성]으로 분류될 수 있다는 것을 의미한다. 예를 들어, 대화 스타일을 어른에서 아이로 바꿀 수 있다는 것은 환자와의 사이코-성 문제를 논의할 수 있다는 것과는 다르다. 관련 역량 영역에 대한 전문 분야별 상황별 정보를 제공함으로써 다양한 전문 분야의 직무 분석은 평가 표본 추출뿐만 아니라 의대생의 자기 선택 및 진로 선택에도 정보를 제공할 수 있다. 그럼에도 불구하고, 의과대학은 그들의 졸업생들에게 다양한 대학원 훈련 프로그램을 준비시켜야 하기 때문에, 의대생들은 모든 의사들에게 중요하다고 여겨지는 역량에 걸쳐 최소한의 기준을 제시할 필요가 있다. 
즉, [일반적 직업성]은 [한 사람의 경력 초기에 특히 중요하다]는 것을 의미한다. 나중에 특정 전문 분야에서 우선순위로 확인된 도메인(즉, 특정 직업)을 해당 전문 분야의 선택 및 평가 절차를 설계하는 데 사용할 수 있다. 

As an example, within paediatrics, communication and empathy were rated as most important, whereas in anaesthesia, integrity and vigilance got the highest ratings. In both paediatrics and obstetrics and gynaecology, team involvement was considered more important than in anaesthesia. Next to differences in relevance, differences in context between specialties also lead to qualitative differences in required competences.33 This implies that a generic occupational like communication could be broken-down into specific occupationals. For example, being able to switch in conversation style from adult to child interactions is different from being able to discuss psycho-sexual problems with patients. By providing specialty-specific, contextualised information on relevant competency domains, job analyses for various specialties could not only inform assessment sampling but also self-selection and career choice of medical students. Nevertheless, as medical schools must prepare their graduates for a wide variety of postgraduate training programmes, medical students need to demonstrate a minimum standard across competencies that are considered important for all medical doctors, meaning that the generic occupationals are particularly important in the early stages of one's career. Later, domains that are identified as priorities in a particular specialty (i.e., the specific occupationals) could be used for designing selection and assessment procedures for that specialty.

  • 제안 5.
  • (a) 일반적 직업성은 의대생들을 위한 평가 절차를 설계할 때 특이적 직업성보다 더 많은 비중을 두어야 한다.
  • (b) 특이적 직업성은 의료 전공의의 선택과 평가 절차에서 일반적 직업성보다 더 많은 비중을 두어야 한다. 그러나 그들은 의대생들의 의학 전공 선택에도 사용될 수 있다.
    Proposition 5.
  • (a) Generic occupationals should be given more weight than specific occupationals in designing assessment procedures for medical students.
  • (b) Specific occupationals should be given more weight than generic occupationals in selection and assessment procedures for medical residents; they could, however, also be used for medical students' self-selection into medical specialties.

6 관계성
6 RELATIONALS

[관계성]은 [특정 업무 맥락과 관련된 특성]이다. 병원의 어느 부서에서는 의사와 그의 팀 간의 관계가 조화로울 수 있지만, 다른 부서에서는 팀 내의 관계가 매우 소송적litigious일 수 있다. 그러한 차이는 그러한 상황을 탐색하는 데 필요한 기술과 지식이 현저하게 다르기 때문에 성과에 현저한 영향을 미칠 수 있다. 결과적으로, [관계성]은 소위 [개인-조직 적합성]과 관련되며, [특정 개인과 특정 조직 맥락이 일치하는지 여부]를 조사하는 접근법을 요구한다. 개인-조직적 적합성에 대한 방대한 양의 연구가 업무와 조직 심리학자들에 의해 수행되었으며, 주로 가치, 즉 [개인의 가치]가 [특정 조직의 가치]와 일치하는지 여부에 초점을 맞추고 있다. Kristof-Brown 등.34와 Arthur 등.35에 의한 메타분석에 따르면 가치적합은 개인의 직무만족도, 이직률(부정적) 및 조직에 대한 헌신과 관련이 있다. 

Relationals, as Smith10 suggested, are characteristics that are relevant to specific work contexts. In one hospital department, the relationship between a medical doctor and his or her team can be harmonious but in another department relationships in a team may be very litigious. Such differences could have a marked effect on performance as the skills and knowledge required to navigate those situations differ markedly. Consequently, relationals concern the so-called person-organisation fit and demand an approach that investigates whether a specific person and a specific organisational context are a match. A vast amount of research into person-organisation fit has been conducted by work and organisational psychologists, mostly focusing on values, namely, whether a person's values are commensurate with the values of a specific organisation. Meta-analyses by Kristof-Brown et al.34 and Arthur et al.35 report that a values-fit is related to a person's job satisfaction, to turnover (negatively) and to commitment to the organisation.

[가치]의 예는 위신prestige을 위해 노력하고, 강한 성취 지향성을 가지며, 타인의 복지에 대한 헌신에 초점을 맞추는 것등이 있다.

  • 특정 학술병원은 선진화, 인지도, 사회적 지위를 중요하게 여기는 사람들을 끌어들이는 선진화와 명성의 가능성을 강조할 수 있다. 
  • 다른 병원은 환자 지향성이 강할 수 있으며, 위신보다 서비스 지향성을 더 중요시합니다. 
  • 또 다른 병원에서는, 직원들이 스스로 일하고 결정을 내릴 수 있도록 하는 독립성에 초점을 맞출 수 있으며, 이것은 강한 개인의 책임과 자율성을 선호하는 사람들에게 일치할 수 있다. 

Examples of values are striving for prestige, having a strong achievement-orientation, and a focus on commitment to the welfare of others.36 

  • A certain academic hospital may emphasise possibilities for advancement and prestige, which may attract people who find advancement, recognition, and social status important.
  • Another may be strongly patient oriented, valuing service orientation more than prestige.
  • In yet another hospital, the focus could possibly be on independence, allowing its employees to work on their own and make decisions, which may form a match for those who prefer strong individual responsibility and autonomy.

드 클레르크 외 연구진은 슈바르츠의 일반 가치 모델을 기반으로 다음과 같은 주제를 바탕으로 [조직을 위한 가치 모델]을 개발하였다. 

  • 자기 평가(예: 성취, 위신 및 권력), 
  • 변화에 대한 개방성(예: 자극과 자기 방향의 필요성), 
  • 자기 초월 (예: 사회적 헌신) 
  • 보수성 (예: 전통, 적합성) 

Based on the general values model of Schwarz,37 De Clercq et al.36 developed a values model for organisations, grounded on the underlying themes of

  • self-enhancement (e.g., achievement, prestige and power),
  • openness to change (e.g., need for stimulation and self-direction),
  • self-transcendence (e.g., social commitment) and
  • conservation (e.g., tradition, conformity).

Gennissen 등이 의대생들을 대상으로 한 최근의 정성적 연구는 이 학생들 사이에서 세 가지 직업 관련 가치발견했다. 

  • 성취와 자신의 일에 대한 인정과 관련된 직업 지향, 
  • 평생 자기 계발에 대한 지향, 
  • 일과 삶의 균형을 중시하는 지향

이 세 가지 가치에서 De Clerq 등의 [자기 강화]와 [변화에 대한 개방성] 테마는 쉽게 인식될 수 있다. 향후 연구는 De Clercq 등의 가치 모델, 즉 [자기 초월]과 [보수성]의 두 가지 다른 주제가 의대생에게 어느 정도 관련이 있는지 조사할 수 있다.

A recent qualitative study among medical students by Gennissen et al.38 found three career-related values among these students, namely,

  • a career orientation concerned with achievement and recognition of one's work,
  • an orientation towards lifelong self-development and
  • an orientation valuing work–life balance.

In these three values, De Clercq et al.'s themes of self-enhancement and openness to change can easily be recognised. Future research could investigate to what extent both other themes in De Clercq et al.'s value model, that is, self-transcendence and conservation, are relevant for medical students.

가치의 차이 외에도, 작업 환경은 높은 자원 대 낮은 자원 환경전자 성과 모니터링의 부재 또는 존재, 요구하는 속도와 같은 구조적 측면에서 다를 수 있다. 20, 39 이러한 요인들은 [조직과 개인에 의한 직무와 기술의 해석]에 영향을 미칠 수 있으며, 따라서 [이러한 해석이 공유되는 정도]에도 영향을 미칠 수 있다. 스미스에 따르면, [가치]와 [직무에 대한 공유된 해석]은 관계 범주에서 가장 관련성이 높은 하위 영역에 속한다.
Next to differences in values, work settings may differ in structural aspects, such as a high- versus low-resource environment, the absence or presence of electronic performance monitoring and needed speediness.20, 39 Such factors may influence the interpretation of the tasks and skills of the job by the organisation and by the individual, and thus the degree to which this interpretation is shared. According to Smith,10 values and the shared interpretation of the job are among the most relevant subdomains in the category of relationals.

우리는 가치, 이상과 원칙, 직업/과제 해석과 같이, [관계성] 측면에서 [특정 의료 환경과 의대생 사이의 일치성]이 학생의 [미래 업무 관련 웰빙]과 [특정 맥락에서 자신의 의료직에 대한 헌신]을 위해 중요하다고 믿는다. 그러므로, 임상실습은 학생들에게 [가치 프로필]의 관점에서 그들이 [일치하는 것을 경험하는지 여부]를 탐구할 기회를 주어야 한다. 향후 특정 병원 부서의 선발 절차에서 이 경기가 역할을 할 수 있다. 예를 들어, 의대생의 일과 삶의 균형 가치는 다른 병원 부서보다 한 병원 부서에 더 적합할 수 있다. 관계성에 초점을 맞추어 다음과 같이 제안한다.
We believe that congruence between a specific medical setting and the medical student in terms of relationals—values, ideals and principles and job/task interpretation—is important for the student's future work-related well-being and the student's commitment to one's medical job in a specific context. Therefore, clerkships should give students the opportunity to explore whether they experience a match in terms of their value profile. In future selection procedures in a specific hospital department, this match could play a role. To illustrate, it may well be that the work–life balance values of a medical student are more fitting for one hospital department than for another. Focusing on relationals, we therefore propose that:

  • 제안 6.
  • (a) 여러 설정(다양한 병원, 저자원 및 고자원 위치 등)에 걸친 임상실습은 의대생에게 한 편으로는 [De Clercq 등의 업무 관련 가치 모델과 직무/과제 해석 측면에서 그들의 가치] 사이에서 적합도를 경험할 기회를 주고,   
    다른 한편으로 [다른 설정을 특징짓는 값과 직무/과제 해석]사이에서 적합도를 경험할 기회를 줘야 한다.
  • (b) 가치 적합도와 공유 직무 해석 적합도는 특정 병원 환경에 대한 (자체) 선택에 영향을 미칠 수 있다.
  • Proposition 6.
  • (a) Clerkships across several settings (different hospitals, locations with low- and high resources, etc.) should provide medical students the opportunity to experience the degree of fit between
    • their values in terms of De Clercq et al.'s work-related values model and their job/task interpretation on the one hand, and
    • the values and job/task interpretations that characterise different settings on the other hand.
  • (b) The degree of value-fit and shared job-interpretation fit might inform (self-)selection for specific hospital settings.

이를 위해 의대생들은 임상연수를 진행하면서 [스스로 평가한 가치관][직무해석 프로필]을 개발해야 한다고 생각한다. 게다가, 우리는 그들이 특정 임상실습을 할 를 때, 그들이 그러한 환경에서 편안함을 느낄 수 있는지 여부를 성찰할 수 있도록 [[그들의 가치]와 [직무 해석] 사이의 [적합성 정도]]와, [그 특정한 맥락에 특징적인 가치와 직업 해석]에 대해 숙고할 것을 조언한다.
To this end, we think that medical students should develop their own self-assessed values and job interpretation profile39 while they conduct their clinical training. Furthermore, while they follow a particular clerkship, we advise that they reflect upon the degree of fit between their values and job interpretation, and the values and job interpretations that are characteristic for that specific context, to be able to reflect whether they would be able to feel at home in such an environment.

[관계성]과 관련된 중요한 이슈는, 의대생의 '적합fit' 척도가 [학생과 특정 병원 단위의 문화적 맥락 사이의 일치]를 포함하는지 여부이다. 이 적합성은 학생이 특정 감독자, 동료 팀 또는 성별, 생활 방식 또는 언어의 측면에서 [특정 인구학적 동질성 또는 이질성]을 갖는 '케미'를 의미할 수 있다. 우리는 (팀 및 병원 환경에 대한 학생의 적합도의 등급을 포함한) 관계성 표본을 다른 의료 작업(상황, 전문 분야, 병원)에 대해 일반화하는 것은 특히 위험하며, 지나친 단순화이기에 시도해서는 안 되는 것이라고 믿는다. 그 이유는 그러한 평점은 [주어진 작업 상황]에 대해서 [매우 맥락적이고 독특할 것]이기 때문이다.

An important issue connected to relationals is whether a measure of a medical student's ‘fit’ includes a match between a student and the cultural context of a specific hospital unit. This fit may refer to the student's chemistry with a specific supervisor, the team of colleagues34 or with a certain demographic homogeneity or heterogeneity in terms of gender, lifestyle or language.34 We believe that generalisation from samples of relationals, including ratings of the student's fit with the team and the hospital climate, to other medical work (contexts, specialisms, hospitals) to be particularly perilous, an oversimplification that should not be attempted. The reason for this is that such ratings will be too contextualised and unique for the work situation in which they were given.

이러한 평정 요소의 전형적인 예는 [호감]이다. 심리학에서의 대인 인식 연구는 [호감]이 소위 [관계 효과]의 영향을 강하게 받는, 타인에 대한 얼마나 근본적인 판단fundamental judgement인지를 명확하게 보여준다. [이 효과는 [특정 평가자]과 [특정 피평가자]의 조합에 고유]하므로, 정의에 따라 특정 개인의 특정 기준 밖에서는 관련이 없다. 특정 병원 단위의 등급을 일반화할 때 잠재적으로 복잡한 또 다른 요인은 [신뢰]의 관계이다. Jones와 Shah41 그리고 Campagna42 (Kenny40에서 인용된 바와 같이)에 의한 연구에서, [더 오랜 시간 동안 함께 일한 사람]들의 경우, 평가자의 신뢰도 등급의 변동의 큰 부분은 관계 변동에 기인할 수 있는 것으로 보인다. 다시 말해, 신뢰는 평가자와 피평가자의 Dyad에게 고유합니다. 따라서 특정 병원 단위에서 상당 기간 일자리 제의를 받아들일 때가 되어야만 해당 단위에만 고유한 관계가 관련성을 갖게 된다. 이러한 사고방식에 따라, 우리는 다음을 제안한다.

A classic example of such a rating component is liking. Interpersonal perception research from within psychology40 clearly shows how liking is a fundamental judgement made about others which is strongly influenced by the so-called relationship effect. This effect is unique to the combination of a specific rater and a specific ratee and therefore, per definition, is not relevant outside that particular dyad of individuals. Another potentially complicating factor in generalising ratings from a specific hospital unit is the relational of Trust. From studies by Jones and Shah41 and Campagna42 (as cited in Kenny40), it appears that for people who have worked together for longer periods of time, a large part of the variance in ratings of ratee's trustworthiness could be attributed to relationship variance. In other words, trust is unique to the dyad of the rater and the ratee. Therefore, only when it is time to accept a job offer at a particular hospital unit for a considerable period of time will relationals, which are unique to that unit, become relevant. Following this line of thinking, we propose the following:

  • 제안 7. 
  • (a) 임상실습 기간 중, 평가자는 [관계 효과와 관련된 요소(예: 호감, 신뢰 및 케미)]에 대한 등급을 부여하지 않아야 하며, [가치적합 및 직무 해석적합 평가]를 하지 않아야 한다.
  • (b) 그러나 이러한 [관계 효과]는 의과대학 졸업생이 [구직 신청을 하는 시점]에서는 관련성이 매우 높아진다.
  • Proposition 7.
  • (a) During clerkships, raters should refrain from giving ratings which include elements associated with the relationship effect (e.g., liking, trust and chemistry) and from value-fit and job interpretation fit evaluations.
  • (b) Such relationship effects, however, become highly relevant at the point in time when the medical graduate applies for a job.

따라서 임상실습 자격 동안 평정을 할 때, 평가자는 [전문 역량에 대한 등급에 영향을 미칠 수 있는 관련 없는 요인(예: 호감 및 내그룹 선호도)]을 인지하도록 훈련해야 한다.

When providing ratings during clerkships, therefore raters need to be trained to become aware of nonrelevant factors that may influence their ratings of professional competences (e.g., liking and in-group favouritism43).

7 Smith의 세 가지 범주 통합
7 INTEGRATING SMITH'S THREE CATEGORIES

본 논문은 의사로서 일하기 위해 필요한 세 가지 다른 범주의 특성이 구분될 수 있다는 주장으로 시작했다.

  • [보편성]은 모든 직업과 따라서 의사를 위한 것이다.
  • [직업성]은 모든 의사 직무에는 필요하나, 다른 직무에는 필요하지 않은 특성을 가리키며, 의사의 하위 집단에만 관련된 [특성의 하위 집합]을 포함한다.
  • [관계성]은 특정 상황에서 효과적인 수행을 가능하게 하는 특성을 가리킨다. 따라서 효과적인지 여부는 특정 조직에 따라 달라진다. 10

보편성에서, 직업성, 그리고 관계성으로 올수록, characteristics는 더 맥락 의존적이 된다. 이것은 능력에 대한 주장을 일반화하기 위해 [임상실습 자격 동안 등급의 샘플을 사용하는 것]이, 보편성universals들에게는 가장 쉽지만, 관계성relationals에 대해서는 주장된 귀납(또는 일반화를 자제)가 필요하다는 것을 의미한다.
This paper started off by arguing that three different categories of characteristics required to work as a doctor can be distinguished.

  • Universals hold for all jobs and therefore also for medical doctors;
  • occupationals refer to characteristics required for all medical, but not other, jobs and include a subset of characteristics that are relevant only to subpopulations of medical doctors;
  • relationals, in contrast, refer to characteristics that enable effective performance in particular settings, and which therefore are effective or not dependent on the specific organisation.10 

Moving from universals to occupationals to relationals, the characteristics become more context dependent. This means that using samples of ratings during clerkships to generalise to claims about competence will be easiest for universals, but will require argued induction—or refraining from generalisation—for relationals.

한 가지 주제인 정서affect는 이 모형을 사용하여 분류하기 어려운 상태로 남아 있습니다. 언뜻 보면, affect-relevant 상황은 관계적으로 보일 수 있다.

  • 예를 들어, 주어진 환경이 [작업 과부하 대 최적 작업량], [목표 파괴적 사건 대 중단 없는 목표 달성], 그리고 [권위주의적 대 개방적인 분위기]에 대해서 어떻게 특징지어지는가?
  • 에이전트성이 높은 학생(성취 지향)의 경우 특정 병원 풍토가 높은 모호성, 통제력 상실 및 업무 완료 장애로 특징지어지는지, 그리고 이러한 문제에 대처할 수 있는지 여부를 아는 것이 중요하다.
  • 이와 유사하게, 교감 지향성이 높은 학생들은 의사소통의 갈등과 환자와의 상호작용의 문제에 대해 특정 병원 문화가 어떻게 평가되는지, 그리고 그들이 그러한 문제에 대처할 수 있는지 알아야 한다.

One topic, affect,44 remains hard to categorise using this model. At first sight, affect-relevant situations may appear to be relationals.

  • For instance, to what extent is an environment characterised by work overload versus an optimal work volume, by goal disruptive events versus uninterrupted goal attainment, and by an authoritarian versus an open climate?
  • For students who are highly agentic (achievement oriented), it is important to be knowledgeable of whether a specific hospital climate is characterised by high ambiguity, loss of control and obstacles in completing their work tasks and whether they are able to cope with such issues.
  • Similarly, students who are highly communion oriented need to know how a particular hospital culture rates on issues of conflict in communication and problems in interactions with patients, and whether they can cope with such issues.

그러나, 우리가 보기에, 이러한 상황에 대한 정서적 반응affective reactions모든 의료 직업에 걸쳐 나타나는 특성일 가능성이 있는지, 특정 전문 분야 간에 차이가 있는지, 또는 특정 병원 부서 내의 분위기에 특이적인 것인지의 여부는 현 시점에서 반드시 명확하지 않다. 일단, 우리는 이러한 업무 특성을 교육생의 영향에 대한 보편적인 주장을 이끌어내기보다는 입사 지원 시 평가해야 할 [관계]로 취급할 것을 제안한다.

However, to our view, it is not necessarily clear at this point whether affective reactions to such situations44 are likely to be characteristics displayed across all medical occupations, differ between certain medical specialties, or are specific to the climate within a certain hospital department. For now, we suggest treating these work characteristics as relationals to be assessed during job applications rather than drawing universal claims about trainees' affect.


Smith10은 다른 맥락, 즉 인사 선택에 대해 일련의 선발 조치의 [예측 타당성predictive validity]이란 [척도에 의해 적용되는 특성 영역]과 [측정되는 도메인]의 함수라고 제안했다. 이를 위해 그는 대수 공식을 개발했다. 수정된 공식 버전은 우리의 목적, 즉 임상 훈련 중 학생들의 성과 평가에 대한 생각을 안내하는 데 사용될 수 있다. 이 개념에 따라, 우리는 다음과 같이 이 공식의 수정을 도출했다.

For a different context, namely, personnel selection, Smith10 proposed that the predictive validity of a set of selection measures is a function of the domain of characteristics covered by the measures and the accuracy with which the domain is measured. To this end, he developed an algebraic formula. A modified version of the formula can be used for our purposes, namely, to guide thinking about performance appraisal of students during clinical training. In line with this notion, we derived a modification of this formula, as follows.

대수적으로 의대생 보편성(U), 직업성(O) 및 관계성(R) 평가의 품질은 다음과 같이 설명할 수 있다. 이러한 역량의 평가의 관측 품질(QAC)은 세 도메인(U, O, R) 각각에 각각의 가중치(W;importance), 표본 추출 품질(S), 평가의 상호 주관성(I)을 곱한 함수이다. 이 공식에서, [W는 결정과 관련하여 도메인의 상대적 중요성]을 의미하지만, [S와 I는 측정의 정확성(즉, 데이터의 품질)의 특징]입니다. 즉, 수집된 데이터 포인트(예: 관찰 및 등급)의 샘플(S)이 도메인 내의 역량을 커버할 만큼 충분히 크고 대표적이며, 가능한 한 효과적으로 수행되었는지 여부(I)를 반영한다(예: 정보에 정통하고 경험이 풍부한 관찰자 대 직관적이고 순진하게 판단). 우리는 [상호 주관성]이 관심 의료 역량에 대해 더 현실적이라는 사실을 고려할 때 스미스의 "평가의 객관성(O)"을 대체하기 위해 상호 주관성을 사용했다. 이 공식에서 우리는 일반적 직업성(Og)과 특이적 직업성(Os)을 구분한다.

Algebraically, the quality of the assessment of medical students' universals (U), occupationals (O) and relationals (R) can be described as follows: the observed quality of the assessment of these competencies (QAC) is a function of the extent to which it measures each of the three domains (U, O and R) multiplied by their respective weight (W; importance), the sampling quality (S) and the intersubjectivity of the assessment (I). In this formula, W refers to the relative importance of the domain in relation to the decision to be made, whereas S and I are features of the accuracy of measurement (i.e., quality of the data). That is, they reflect whether the sample (S) of collected data points (e.g., observations and ratings) is large and representative enough to cover the competencies within the domain and whether or not that has been done as effectively as possible (I) (e.g., using informed and experienced observers vs. intuitive and naïve judgement). We used intersubjectivity to replace Smith's “objectivity (O) of assessment” given the fact that intersubjectivity is more realistic for the medical competencies of interest. In the formula, we distinguish between generic occupationals (Og) and specific occupationals (Os).

 

 

이 공식은 교육 프로그램 관리가 궁극적으로 책임지는 학생들의 평가의 질을 정당화하는 데 사용될 수 있다. 이는 U, O 및 R 역량에 부여된 중요성을 명시적으로 설명하고 사전 결정된 척도(예를 들어 -5[매우 나쁜 샘플링/상호 주관성]에서 +5[우수한 샘플링/상호 주관성]까지의 척도로)에서 평가의 샘플링 및 상호 주관성을 방어함으로써 수행된다(표 1).
This formula can be used to justify the quality of the assessment of students for which the educational programme management ultimately is responsible. This is done by explicitly explaining the importance given to the U, O and R competencies, and by defending the quality of sampling and intersubjectivity of the assessments on a predetermined scale (for instance on a scale from −5 [very bad sampling/intersubjectivity] to +5 [excellent sampling/intersubjectivity]) (Table 1).

아래 통합표(표 2)는 보편성, 직업성, 관계성을 평가하는 방법에 대한 개요를 제공합니다. 또한 각 역량 영역과 몇 가지 평가 권고사항에 대해 관련 일반성 문제를 어떻게 다룰 수 있는지 설명한다. 우리는 [보편성 범주](신뢰하게 측정된다면, 그리고 상대적으로 강력한 예측 타당성 계수를 가진다면)가 의료 분야의 선택과 평가에서 상대적으로 큰 비중을 가질 필요가 있다고 주장한다. 보편성에 초점을 맞추는 것은 우리가 집중하고 있는 임상 훈련의 의대생 모집단의 경우와 마찬가지로 '배치에 대한 결정이 지연될 가능성이 있을 때' 중요하다. [보편성]은 또한 "급속한 변화가 예상되는" 조건에서도 매우 적합하며, 10은 기술 및 과학 발전의 효과가 주어진 의료 전문가에게 특징적이지만 또한 한 국가 내의 의료 시스템에 대한 정부의 간섭 가능성을 감안한다. 어떤 곳에서는, 상당한 수의 의학 졸업생들이 의사 이외의 직업을 찾는다(예: 약학 및 정책 자문 45). 따라서 이런 경우, 정의상 [보편성]의 상대적 중요성이 강조된다. 물론, 모든 졸업생들의 절대 다수가 의사로서 직업을 찾는 것을 고려할 때, 우리의 관점에서도 [일반적 직업성]은 필수적이지만, 앞에서 주장했듯이, 관계성은 임상 훈련 동안 가중치가 낮아야 한다.
The below integrative table (Table 2) offers an overview of how, to our view, universals, occupationals and relationals can be assessed. It also illustrates how relevant generalisability issues can be dealt with for each competency domain, and several assessment recommendations. We maintain that the category of universals—if reliably measured and when having a relatively strong predictive validity coefficient—needs to have a comparatively heavy weight in selection and assessment for the medical profession. Focusing on universals is important when ‘decisions about placement are likely to be delayed’ (Smith10, 18), as is the case for the population of medical students in clinical training we are focusing on. Universals also are highly appropriate in ‘“turbulent” … conditions where rapid change is anticipated’,10 which is characteristic for the medical profession given effects of technological and scientific developments but also given the potential of governmental interference in the medical systems within a country. In some places, a substantial minority of medical graduates find jobs other than medical doctor (e.g., in pharmacy and policy adviserships45), training for which by definition highlights the relative importance of universals. Naturally, generic occupationals to our view are essential as well, given that the vast majority of all graduates find a job as medical doctor,45 whereas as argued before, relationals, in contrast, should receive a low weight during clinical training.



의대생들의 평가와 (자기-)선발 문제를 더 넓게 보고 그들의 미래 직업 성공을 예측하면, 많은 다른 요소들이 작용하게 될 것이다. 이러한 요소들 중에는 평가가 (법적으로) 모든 이해당사자에 의해 공정하고 적절하다고 보는지, 비용이 많이 들지 않지만 실용적인지, 그리고 학생들의 졸업이 기대되는 부분이 무엇인지 등이 있습니다. 이러한 요소들은 본 논문의 범위를 벗어나기 때문에 여기서 간단히 언급될 뿐입니다. 우리는 심리학 영역에서 나온 [스미스의 타당성 모델]이 의학생의 전문적인 기술 평가의 관련성relevance과 일반화가능성generalizability에 대한 질문을 프레임하는 새로운 방법을 형성한다고 믿는다. 제시된 제안은 실증적 연구에서 시험할 필요가 있을 것이지만, 우리는 그것들이 의과대학이 편의 표본에서 평가가 이루어지는 목적에 따라 안내되는 보다 목적 있는 표본으로 이동할 수 있도록 하는 유용한 출발점을 제공할 것으로 기대한다. 또한 이 세 가지 범주의 각 품질을 어떤 상황에서 어떻게, 얼마나 자주, 측정해야 하는지에 대한 의사결정을 지원해야 한다. 다시 말해서, 의학 졸업생들이 원하는 각각의 자질에 대한 숙달 정보를 제공하는 가장 적절한 데이터 출처는 무엇인가?

Taking a broader view on the issue of assessment and (self-)selection of medical students and predicting their future job success, many other factors will come into play. Among these are whether the assessments are seen as (legally) fair and appropriate by all stakeholders,14, 21 not too costly but practical, and what portion of students can be expected to graduate.47 These factors are only briefly mentioned here as they are beyond the scope of the present paper. We believe Smith's validity model, which emanated from the domain of psychology, forms a novel way to frame questions of the relevance and generalisability of professional skills assessment of students in medicine. The propositions put forward will need to be put to the test in empirical studies, but we expect them to provide a useful starting point to enable medical schools to move from convenience samples towards more purposeful samples guided by the purpose for which the assessments are being made. They should further help make decisions about how, how often and under which circumstances each of the qualities in these three categories has to be measured. In other words, what are the most appropriate sources of data to inform mastery of each of the desired qualities for medical graduates?

8 결론
8 CONCLUSION

보편성, 직업성 및 관계성으로 구성된 스미스의 프레임워크에서 추출하고 샘플과 부호의 구별을 사용하여, 우리는 (a) 임상실습 근무 중 평가 목적으로 샘플링하는 문제와 (b) 신호Signs에 대한 일반화가능성 문제에 대한 역량 영역 분할의 의미를 간략히 설명했다. 의과대학에서 표본 추출의 초점은 [일반적 직업성]을 평가하는 데 맞춰져야 한다. 그러나, 우리는 [특이적 직업성]일반적 직업성을 측정을 도울 수 있으며, 의대생들에게는 그들이 특정한 적성을 가지고 있는 미래의 직업 환경에 대해 정보를 주는 것에 도움이 될 수 있다고 추측한다. 학생들은 [특정 의료 환경에 대한 자신의 적합성을 자가 진단]하기 위해 관계성을 사용하는 것이 좋습니다. 보편성, 직업성 및 관계성에 대한 스미스의 공식을 채택하여 교육자가 의대생 평가의 질을 개념화할 수 있도록 지원한다.

Drawing from Smith's framework of universals, occupationals and relationals, and using the distinction between samples and signs, we outlined the implications of a division of competency domains for (a) issues of sampling for assessment purposes during clerkships, and (b) generalisability to signs. The focus of sampling in medical schools should be on assessing generic occupationals. However, we suspect that specific occupationals can help to measure generic occupationals and to inform medical students on future work contexts for which they have a particular aptitude. Students are advised to use relationals to self-assess their fit with specific medical settings. An adaptation of Smith's formula for universals, occupationals and relationals is provided to assist educators to conceptualise the quality of assessment of medical students.

 


Med Educ. 2022 Jan;56(1):117-126. doi: 10.1111/medu.14669. Epub 2021 Oct 5.

Inferring signs from purposeful samples: The role of context in competency assessment

Affiliations collapse

Affiliations

1Department of Psychology, Erasmus University Rotterdam, Rotterdam, The Netherlands.

2Optentia and Faculty of Economic and Management Sciences, North-West University, Vanderbijlpark, South Africa.

3Institute of Medical Education Research Rotterdam, Erasmus MC, Rotterdam, The Netherlands.

PMID: 34558107

DOI: 10.1111/medu.14669

Abstract

Context: Medical students' clinical competencies are customarily assessed using convenience samples of performance from real practice. The question is how these convenience samples can be turned into purposeful samples to extrapolate students' overall competency profile at the end of medical school, particularly given the context specificity of clinical performance. In this paper, we will address this issue of inferring signs from samples using insights from the discipline of psychology.

Theoretical perspective: We adapted Smith's theory of predictor validity of universals, occupationals and relationals to the context of clinical competency assessment. Universals are characteristics required by all working individuals and therefore not context dependent. Occupationals refer to characteristics required by certain jobs but not others and therefore are dependent on task-related features of an occupation. Relationals are required in a specific organisational context with habitual ways of working together.

Application: Through seven propositions, we assert that generalising from samples of assessed clinical competencies during clerkships to generic competencies (i.e., signs) is dependent on whether characteristics are universals, occupationals and relationals, with universals most and relationals least generalisable.

Conclusion: When determining what types of ratings to use to evaluate medical student competence, medical education has shown too little nuance in considering the degree to which particular characteristics are likely to be generalisable, approaching the issue in an all-or-none manner. Smith's distinction between universals, occupationals and relationals offers a promising way forward that has implications for assessment, student selection and career choice.

의학교육의 고약한 문제: 학습자 평가에서 형평 달성하기(Acad Med, 2020)
Medical Education’s Wicked Problem: Achieving Equity in Assessment for Medical Learners
Catherine R. Lucey, MD, Karen E. Hauer, MD, PhD, Dowin Boatright, MD, and Alicia Fernandez, MD

 

 

의료 및 기타 보건 분야의 다양성이 증가하면 소수민족minority populations에게 제공되는 의료의 질과 접근성이 향상되고, 소수민족과 다수 학생 모두의 교육 환경이 개선되며, 팀 기반 문제 해결이 최적화되고, 의료 연구의 집중과 관련성이 확장된다. 부분적으로 인증 기준과 국가 기관에 의해 추진된 많은 의과대학과 레지던트 프로그램은 그들의 수업의 다양성을 증가시키기 위해 전인적holistic 입학 전략을 성공적으로 사용했다. 그러나, 비슷한 다양성의 증가는 명예 사회honor soceity, 전공의 선발 프로그램, 그리고 의학 전문 분야에서 그리고 미국 의과대학의 교수진들 사이에서 실현되지 않았다. 경쟁이 심한 커리어나 프로그램에 진입하는 것은 종종 학생들의 성적과 학업 수상에 의존하기 때문에, 이러한 관찰은 의과대학의 평가 관행이 [구조적이고 대인관계적인 편향]을 받는지에 대한 우려를 불러일으켰다.

Increasing diversity in medicine and other health professions improves access and the quality of care provided to minority populations, enhances the educational environment for both minority and majority students, optimizes team-based problem solving, and expands the focus and relevance of medical research.1–4 Driven in part by accreditation standards and national organizations,5–8 many medical schools and residency programs have successfully used holistic admissions strategies to increase the diversity of their classes. However, similar increases in diversity have not been realized in honor societies, selective residency programs, and medical specialties, and among faculty in U.S. medical schools.9 Because entry into competitive careers and programs is often dependent on student grades and academic awards, these observations have prompted concerns about whether the assessment practices of medical schools may be subject to structural and interpersonal bias.

의과대학은 평가의 형평성에 대한 이러한 우려에 대응할 [도덕적 책임]이 있다. 평가는 학습을 안내하고, 학생의 진보를 가능하게 하며, 직업 선택과 기회에 영향을 미치며, 또한 졸업생들의 역량을 이해 관계자들에게 보장한다. 의학교육의 불평등한 평가는 의약분야에서 과소대표된 그룹(underrepresented in medicine, UIM)의 학습자에게 진급 및 진로기회에 대한 장벽을 영구화한다. 비록 근거가 없더라도, [불평등한 평가의 가능성에 대한 우려] 그 자체로 UIM 학습자에게 부담을 줄 뿐만 아니라, 그들의 수행perform을 기대하는 학습 환경을 더 어렵게 만든다.
Medical schools have a moral responsibility to respond to these concerns about equity in assessment. Assessment guides learning, enables student progress, and impacts career choice and opportunity while also assuring stakeholders of graduates’ competence. Inequitable assessments in medical education perpetuate barriers to advancement and career opportunities for learners from groups underrepresented in medicine (UIM). Even if unfounded, concerns about the possibility of inequitable assessments burden UIM learners and add to the challenging nature of the learning environments in which they are expected to perform.

평가의 형평성은 [사악한 문제]의 정의를 충족시킨다.10 [사악한 문제]는 갈등, 불확실성, 역동적 긴장, 맥락적 영향에 대한 취약성이 특징이다.

  • 많은 교수진들은 학생들을 가르치고 평가하는 우리의 현재 접근 방식이 방어가능하고, 보람 있는 공로와 열심히 일하는 것이라고 믿는다.
  • 한편, 어떤 사람들은 그것이 역사적으로 의대생, 전공의, 그리고 교수진의 대다수를 구성했던 사람들에게 [교육의 기회와 직업 특권의 상태를 영속적으로 유지해온 동일한 구조적 인종차별]에 의해 더럽혀졌다고 믿는다.

평가에서 형평성 문제를 탐구하는 문헌은 문제의 복잡성에 대한 더 큰 명확성을 제공하고 있지만, 평가에서 [형평성의 본질]에 대한 근본적인 질문을 해결하거나, 관찰된 차이에 대한 해결책을 제안하지 못했다.
Equity in assessment meets the definition of a wicked problem.10 Wicked problems are characterized by conflicts, uncertainty, dynamic tensions, and susceptibility to contextual influences.

  • Many faculty believe that our current approach to teaching and assessing students is defensible, rewarding merit and hard work.
  • Increasingly, others believe that it has been tainted by the same structural racism that has perpetuated a state of educational opportunity and career privilege for populations that have historically constituted the majority of medical students, residents, and faculty.

The literature that explores issues of equity in assessment is providing greater clarity into the complexity of the problem but has yet to resolve the fundamental questions about the nature of equity in assessment or propose solutions to observed differences.


이 [사악한 문제]를 해결하기 위해서는, 모든 의과대학과 레지던트 프로그램에서 교육자들의 일치된 노력이 필요할 것이다. 이 작업을 촉매하는 데 도움이 되도록, 우리는 평가에서 형평성의 공유 정신 모델을 확립하기 위한 핵심 개념을 정의함으로써 본 논문을 시작한다. 우리는 문헌에 대한 검토를 계속하고, 의료 교육 평가의 형평성에 대한 우려를 탐구하며, 조직 우수 분야의 작업을 모델링한 제안된 프레임워크를 따른다. 마지막으로, 우리는 향후 연구가 탐구해야 할 도전과 논쟁에 대해 설명한다.

Addressing this wicked problem will require concerted work by educators in all medical schools and residency programs. To help catalyze this work, we begin this paper by defining key concepts to establish a shared mental model of equity in assessment.11 We continue with a review of the literature, exploring concerns about equity in assessment in medical education, and follow with a proposed framework modeled on work in the field of organizational excellence. Finally, we describe challenges and controversies that future research should explore.

평가에서 형평성이란 무엇인가?
What Is Equity in Assessment?

[형평성]은 [공정함]과 [사회적 정의]가 실현된 상태이다. 따라서 [형평한equitable 평가 시스템]은 미래의 교육 및 직업 기회를 촉진한다. 평가의 형평성은 모든 학생들이 의학 분야에서 미래의 성공을 예측하는 성취의 시연에 기초하여 학습, 평가, 지도, 등급, 고급, 졸업 및 후속 기회를 위해 선택될 수 있는 공정하고, 불편부당한impartial 기회를 가질 때 존재한다. 그리고 [학습 경험이나 평가]가 모두 [학습자나 평가자의 개인적 또는 사회적 특성]과 관련된 [구조적 또는 대인적 편견에 부정적인 영향]을 받지 않아야 한다. [공평한 평가 시스템]은 다수 학습자와 소수 학습자 모두가 더 많이 배우고 더 잘 배울 수 있도록 해야 한다. 
Equity is the state of being fair and achieving social justice.12,13 An equitable assessment system thereby facilitates future educational and career opportunities. Equity in assessment is present when all students have fair and impartial opportunities to learn, be evaluated, coached, graded, advanced, graduated, and selected for subsequent opportunities based on their demonstration of achievements that predict future success in the field of medicine, and that neither learning experiences nor assessments are negatively influenced by structural or interpersonal bias related to personal or social characteristics of learners or assessors. An equitable assessment system should enable both majority and minority learners to learn more and learn better.14

평가 자본의 구성 요소
Components of equity in assessment


평가에서 형평에는 내재적 형평, 맥락적 형평, 도구적 형평의 세 가지 요소가 있다(그림 1 참조). 

There are 3 components to equity in assessment: intrinsic equity, contextual equity, and instrumental equity (see Figure 1).

[내재적 형평성]은 평가 프로그램 및 사용된 평가 도구의 설계가 [역사적으로 의료계에서 소외된 그룹에 대한 편견을 최소화함]을 의미한다. [확립된 준거]는 고품질의 평가 전략을 정의하고 또한 평가의 형평성을 달성하기 위한 노력에 inform한다. 이러한 준거에는 다음이 포함됩니다.

Intrinsic equity means that the design of the program of assessment and the assessment tools used minimize bias against groups historically marginalized by the medical profession. Established criteria define high-quality assessment strategies and also inform efforts to achieve equity in assessment. These criteria include:

  • (1) 타당성 또는 일관성,
  • (2) 재현성 또는 일관성,
  • (3) 등가성,
  • (4) 실현 가능성,
  • (5) 교육적 효과,
  • (6) 촉매 효과, 그리고
  • (7) 수용 가능성
  • (1) validity or coherence,
  • (2) reproducibility or consistency,
  • (3) equivalence,
  • (4) feasibility,
  • (5) educational effect,
  • (6) catalytic effect, and
  • (7) acceptability.15 

이러한 준거를 준수하여야, 교육자들이 [커리큘럼과 평가를 얼라인]하고, [가치 있는 것을 반영하여 측정]하며, [학습을 가이드]하고, [환자와 대중에게 시스템의 책임성을 보장]할 수 있다. 이러한 준거가 충족되지 않을 경우 평가의 불평등inequity이 발생할 수 있습니다. 표 1은 이러한 기준에 대한 정의를 요약하고 이를 충족하지 못하는 것이 평가의 불평등을 가능하게 하는 방법의 예를 제공한다.

Adhering to these criteria guides educators to align curriculum and assessment and to ensure that what is measured reflects what is valued, guides learning, and ensures accountability of the system to patients and the public. When these criteria are not met, inequity in assessment may result. Table 1 summarizes definitions for these criteria and provides an example of how failing to meet them can enable inequity in assessment.

 

[맥락적 형평성]은 [학습 경험과 평가 전략이 구현되는 환경의 공정성]을 의미한다. 맥락적 형평성에는 다음에 대한 형평성이 포함된다.

  • 해당 환경 내에 할당된 환경과 과제, 
  • 학습 환경 내부 및 외부에서 가용한 지원 및 사회 구조
  • 평가 절차를 구현하는 감독자의 준비

이러한 요인들은 학습자들이 경험하는 환경에 영향을 미치므로, 학습자들이 최고의 능력에서 수행하고 평가되어야 하는 기회입니다.

Contextual equity refers to fairness in the learning experience and the environment in which assessment strategies are implemented. Contextual equity includes fairness in:

  • assigned environments and tasks within those environments,
  • support and social structures available within and outside the learning environments, and
  • the preparation of supervisors who implement assessment procedures.

These factors impact the climate experienced by learners and, thus, the opportunity learners have to perform and be assessed at their peak abilities.

의료 교육에서 평가의 형평성은 또한 [도구적 형평성]에 대한 주의를 필요로 한다. 이는 사회적 계층이나 개인적 특성에 관계없이 모든 사람에게 공평한 기회를 창출하기 위해 이해관계자와 평가 프로세스의 결과를 공유하고 사용하는 방법을 의미한다. [도구적 형평성]은 평가가 설계된 맥락에서 [후속 성과를 과대 또는 과소 예측하지 않는 방식으로 결과를 공유하고 사용]할 때 존재한다(표 2 참조).

Equity in assessment in medical education also requires attention to instrumental equity: How results of assessment processes are shared with and used by stakeholders to create equitable opportunities for all, regardless of their social class or personal characteristics. Instrumental equity is present when the results are shared and used in a manner that neither over- nor underpredicts subsequent performance in the context for which assessment was designed (see Table 2).

 

[내재적, 맥락적, 도구적 형평성]은 평가의 [성과에 대한 형평성]에 집합적으로 기여하는 [프로세스 형평성 가치]이다.
이 때 'outcomes'란 평가 결과에 따라 달라지는 개인(예: 인기 많은 전공의 프로그램 선발) 또는 인구집단(예: AHS 내 교수진의 다양성)에게 제공되는 기회를 의미한다.
Intrinsic, contextual, and instrumental equity are process equity values that collectively contribute to equity in assessment outcomes: the opportunities afforded to individuals (such as selection for a prestigious residency) or populations (such as diversity of faculty in academic health systems) based on the consequences of assessment.

 

심리 측정의 엄격성에 초점을 맞추면 임상 학습 환경에서 평가의 형평성이 짧아지는 이유
Why a focus on psychometric rigor shortchanges equity in assessment in the clinical learning environment

[맥락적 형평성(평가가 이루어지는 학습 환경의 공정성)]은 그 정의상 복잡한 임상 환경에서 본질적으로 성취하기 어렵다. 학습자는 다양한 환자, 임상 조건, 팀 역학, 시간 제약, 감독자 기술 및 기타 요소를 경험합니다. 이러한 [변동성]으로 인해 평가 조건도 마찬가지로 변동적이며, [고부담 시험]에서 추구하는 [엄격한, 통제되고, 재현 가능한 조건]이라는 기대와 충돌한다. 예를 들어, 고위험 국가 면허 및 인증 시험 환경에서 [심리측정적 엄격성(흔히 "객관적"으로 선전되는 재현 가능하고 신뢰할 수 있는 결과)]을 추구하는 것은 전적으로 실현 가능하다. 그러나 이러한 시험은 의사 수행과 관련된 역량의 일부 측면만 측정하므로, 이러한 시험만 사용할 경우 향후 환자 치료에 대한 미미한 예측 능력만 있을 뿐이다. 

The definition of contextual equity—fairness in the learning environment in which assessment occurs—is inherently challenging in the complex clinical environment. Learners experience different patients, clinical conditions, team dynamics, time constraints, supervisor skill, and other factors. This variability makes the conditions for assessment similarly variable, and in conflict with traditional expectations for tightly controlled, reproducible conditions sought for high-stakes testing. For example, it is entirely feasible to pursue psychometric rigor—reproducible, reliable results that are often touted as “objective”—in the environments of high-stakes national licensing and certification examinations. However, these examinations only measure some aspects of the competencies relevant to physician performance and thus, used alone, have only modest predictive ability for future patient care.16–20 For most competencies other than knowledge, patient care skills are an essential component of the valid and equitable assessment of learner performance.

지식을 제외한 대부분의 역량의 경우, patient care skill은 학습자 수행의 유효하고 공평한 평가의 필수적인 구성요소이다. [임상 기술의 공평한 평가equitable assessment를 위한 조건을 만드는 것]은 지금까지 의료 교육자들에게 어려운 일이었다. 평가의 심리측정학 시대에, [WBA의 신뢰성 또는 재현성]에 주로 초점을 두는 것은 [평가자들이 서로 다른 수준의 학습자 수행의 유사한 등급을 제공하도록 충분히 훈련될 경우 공정성을 얻을 수 있을 것이라는 가정]을 부채질했다. 그러나 임상 수행능력 평가는 [매우 신뢰도가 높은 평정]이라는 비전에는 크게 미치지 못했다. 사실, 더 최근의 문헌은 우리가 학습자들이 접하는 임상 과제, 맥락, 그리고 다른 지도자들의 복잡성을 의미 있는 반영으로 등급의 가변성을 수용한다고 주장한다. 이 가이드는 [맥락적 형평성의 중요성]을 인정한다. 맥락적 형평성을 고려하지 않으면, 아래에 설명된 것처럼 [불평등한inequitable 평가 관행]이 영속될 것이다.

Creating the conditions for equitable assessment of clinical skills has thus far been challenging for medical educators. In the psychometric era of assessment, the major focus on reliability or reproducibility of workplace assessments fueled an assumption that fairness would result if raters were sufficiently trained to provide similar ratings of different levels of learner performance. However, assessment of clinical performance has fallen grossly short of this vision of highly reliable ratings. In fact, more recent literature advocates that we embrace the variability in ratings as a meaningful reflection of the complexity of clinical tasks, contexts, and different supervisors whom learners encounter.21–24 This guidance embraces the importance of contextual equity; failure to consider contextual equity perpetuates inequitable assessment practices, as described below.

기존 문헌: 의료 교육 평가의 형평성에 대한 우려는 보장된다.
Existing Literature: Concerns About Equity in Assessment in Medical Education Are Warranted

평가의 형평성 문제에 대한 탐구는 의대 입학, 진도 및 졸업에 사용되는 평가의 편향, 공정성, 차이, 차등 달성 등의 개념과 레지던스 프로그램과 교수진 경력을 위한 성공적인 경쟁에 초점을 맞춘 여러 연구로 시작되었다. 이러한 연구는 UIM과 WRIM 학생과 전공의 사이의 표준화된 시험, 임상 평가, 등급 및 학술상에서의 모집단 그룹 차이를 일관되게 문서화하며, 이는 사실상 항상 WRIM 학습자에게 유리하다. 게다가, 연구들은 또한 평가 결과의 사소한 차이가 레지던트 및 직업 기회에 강력한 영향을 미칠 수 있다는 것을 문서화했다. 
Exploration into the question of equity in assessment has begun with multiple studies focused on concepts such as bias, fairness, differences, and differential attainment in assessments used for entry to, progress through, and graduation from medical school and successful competition for residency programs and faculty careers.25–35 These studies consistently document population group differences in standardized examinations, clinical assessments, grading, and academic awards between UIM and well-represented in medicine (WRIM) students and residents, differences that virtually always favor WRIM learners. Furthermore, studies have also documented that minor differences in assessment outcomes can have a powerful impact on residency and career opportunities.9,30

고위험 표준화 시험에서 모집단 그룹 차이가 존재함
Population group differences exist in high-stakes standardized exams

국가 고위험 표준 시험은 종종 의과대학에 입학할 학생들을 선발하고 가장 경쟁력 있는 특기, 레지던트 프로그램, 그리고 진로에 들어가기 위해 사용된다. 불행하게도, 이러한 많은 시험들에서, 백인 이외의 동료들보다 백인 지원자들을 선호하고 여성들보다 남성 지원자들에게 호의적favor인 인구집단 간 차이가 존재한다.

  • 의과대학 입학시험(MCAT)은 의과대학 입학사정관이 어떤 지원자에게 의과대학 면접과 합격을 제안할지를 결정하기 위해 사용하는 가장 중요한 선발 기준 중 하나이다. 비록 개별 여성과 UIM 학생들이 MCAT 점수의 범위에 걸쳐 점수를 매기지만, MCAT 점수에 집단 간 차이가 존재하며, 평균적으로 흑인 및 히스패닉 학생들은 백인 동료들보다 낮은 점수를 받는다.
  • 마찬가지로, 미국 의료 면허 시험(USMLE) 1단계 시험은 거주자 선택에 중요한 역할을 했다. 유사한 모집단 그룹 차이는 USMLE 1단계에서 입증되었다. 연구에 따르면 흑인, 히스패닉, 아시아계 의대생들은 백인 학생들보다 평균 USMLE 1단계 점수가 낮고, 여성들은 평균적으로 남성들보다 낮은 점수를 받는 것으로 일관되게 나타났다. USMLE 1단계 점수의 이러한 그룹 차이는 학생들의 이전 학업 성취도에 의해 설명되지 않으며, 학생들의 총 성적 평균과 MCAT 점수를 감안한 후에도 지속된다.

National high-stakes standardized exams are often used to select students for entry into medical school and into the most competitive specialties, residency programs, and careers. Unfortunately, in many of these exams, population group differences exist that consistently favor White applicants over their non-White peers and men applicants over women.

  • The Medical College Admission Test (MCAT) is one of the most important selection criteria used by medical school admissions officers to determine which applicants are offered medical school interviews and acceptance.36 Although individual women and UIM students score across the range of MCAT scores, population group differences exist in MCAT scores, with Black and Hispanic students, on average, scoring lower than their White peers.35,37,38 
  • Similarly, the United States Medical Licensing Exam (USMLE) Step 1 exam has played an important role in residency selection.39 Similar population group differences have been demonstrated on the USMLE Step 1. Studies have consistently shown that Black, Hispanic, and Asian medical students, on average, have lower USMLE Step 1 scores than White students and women, on average, score lower than men.40–42 These group differences in USMLE Step 1 scores are not explained by students’ prior academic achievement, and they persist even after accounting for students’ total grade point average and MCAT scores.43

의과대학 학생들의 미래 성과에 대한 MCAT의 예측 능력과 미래의 면허 시험 수행에 대한 USMLE 1단계 시험에 대한 심리측정학 분석에 따르면 [시험의 본질적instrinsic 편향의 증거는 없다]. MCAT, USMLE 및 기타 고위험 표준 시험의 모집단 차이를 설명하는 일반적인 이론은 [UIM 학생들에게 제공되는 교육 기회에 대한 구조적 인종차별의 결과]에서 차이가 발생한다는 것이다. 최근 USMLE 1단계 시험에 대한 합격/불합격 채점 변경은 면허를 위한 의료 지식에서 최소한의 역량 보장을 유지하면서 불평등을 해결하기 위한 유망한 전략을 나타낸다.
Psychometric analysis of the predictive ability of the MCAT on future performance of students in medical school and the USMLE Step 1 exam on performance on future licensing exams shows no evidence of intrinsic bias of the exams.35 The prevailing theory explaining population group differences in the MCAT, the USMLE, and other high-stakes standardized exams is that the differences result from consequences of structural racism on educational opportunities afforded to UIM students.35,38 The recent change to pass/fail scoring for the USMLE Step 1 examination represents a promising strategy to address inequity while maintaining assurance of minimal competence in medical knowledge for licensure.

MCAT와 USMLE 시험의 경우, 광범위한 점수를 가진 학생들은 의과대학, 레지던트 및 의사 실습에서 미래에 성공할 수 있다. 그러나 많은 의과대학(MCAT)과 레지던트 프로그램(USMLE)은 면접과 입학을 위해 고려하는 지원자를 가장 높은 점수를 받은 지원자로 제한하는 것을 선택한다. 그들은 이런 이유를 댄다.

  • 많은 수의 지원자들을 효율적으로 심사할 필요성에 대한 우려,
  • 점수의 작은 차이가 갖는 예측 능력에 대한 잘못된 믿음,
  • U.S. News & World Report에 따르면 기관 순위를 높이기 위해, 신입생이 가장 높은 시험 지표를 갖게 하라는 지도부의 압력.

이러한 시험에서 입증된 모집단 차이를 감안할 때, 최고 점수자에게만 기회를 제한하는 것은 UIM 학생들에게 시스템적 불이익을 주는 것이며, 의과대학 수업과 레지던트 프로그램을 다양화하는 데 장벽을 제공한다. 

For both the MCAT and USMLE examinations, students with a broad range of scores are capable of future success in medical school, residency, and physician practice. However, many medical schools (for the MCAT) and residency programs (for the USMLE) choose to restrict the candidates they consider for interviews and admission to those with the highest scores.38,44 They cite

  • concerns about need to efficiently screen large numbers of applicants,
  • false beliefs about the predictive ability of minor differences in scores, and
  • pressure from leadership to craft a class with the highest exam metrics to increase institutional rankings according to U.S. News & World Report.

Given the demonstrated population group differences on these exams, this restriction of opportunity to the highest scorers systematically disadvantages UIM students and presents a barrier to diversifying medical school classes and residency programs.37,45,46

 

서술적 평가, 성적, 상에는 모집단 그룹 차이가 존재한다.
Population group differences exist in narrative evaluations, grades, and awards

[서술적 평가]와 [의과대학 성적]은 전공의, 펠로우, 개업의로서 미래의 성공에 필요한 역량에 대한 보다 총체적인 관점을 제공하는 것으로 생각된다. 교직원과 관리자에 의한 학생에 대한 부서별 및 기관별 평가에서도 모집단의 차이가 존재한다. 서술적 평가와 추천서에서 교수진이 사용하는 의대생에 대한 설명은 성별, 성별, 인종, 민족성에 따라 다양하다. 이러한 차이는 (백인이 아닌 학생보다) [백인 학생에게 유리]하다.
Narrative evaluations and medical school grades are thought to provide a more holistic view of the competencies needed for future success as a medical resident, fellow, or practicing physician. Population group differences also exist in departmental and institutional assessments of students by faculty and administrators. Descriptions of medical students used by faculty in narrative evaluations and letters of recommendation vary by sex, gender, race, and ethnicity. These differences favor White students over non-White students.

의학생 수행평가(MSPE)는 레지던트 선발을 목적으로 의과대학에서 학생 성과를 요약하기 위해 작성한 서류다. 최근 MSPE에 대한 연구에서 백인 학생들은 백인 이외의 또래에 비해 "최고", "우수", "우수"와 같은 "뛰어난" 단어로 묘사될 가능성이 더 높았다. 게다가, 여학생들은 남학생들보다 "자상하고" "연민"으로 묘사될 가능성이 더 높았고, [지능과 능력을 나타내는 단어]로 묘사될 가능성이 더 낮았다. 핵심 임상실습 평가에서 언어에 대한 또 다른 최근 연구는 평가자들이 그들의 단어 선택을 통해 성 고정관념을 강화한다는 것을 발견했다. 예를 들어, 여성은 남성보다 "사랑스러운" 것으로 묘사될 가능성이 더 높았고, 남성은 "과학적인" 것으로 묘사될 가능성이 더 높았다.
Medical student performance evaluations (MSPEs) are the documents prepared by medical schools to summarize student performance for the purpose of residency selection. In a recent study of MSPEs, White students were more likely to be described with “standout” words such as “best,” “excellent,” and “outstanding” compared with their non-White peers.32 Further, female students were more likely than males to be described as “caring” and “compassionate” and less likely to be described with words that denote intelligence and competence. Another recent study of language in core clerkship evaluations found that evaluators reinforce gender stereotypes through their choice of words. For example, women were more likely than men to be described as “lovely,” while men were more likely to be described as “scientific.”3

연구들은 또한 수여된 성적에서 인종과 민족적 차이를 보여주었다. 한 학술 의료 센터는 최근 역사적으로 UIM(흑인 또는 아프리카계 미국인, 히스패닉, 미국 인디언/알래스카 원주민 또는 하와이/태평양 원주민) 학생들이 백인 학생들에 비해 모든 임상실습에서 절반의 "Honors" 점수를 받았다는 것을 발견했다. 응급의학(EM) 프로그램에 지원하는 2,884명의 의대생들의 순위를 매기기 위해 사용된 표준 평가서의 수치적 글로벌 평가 순위를 조사한 결과, 흑인 지원자들이 여러 영역에서 백인 지원자들보다 낮은 등급을 받았으며, 여기에는 응급의학과에서 미래의 성공 평정, 순위 목록 예측, 전체 지원자 순위 등이 포함된다.

Studies have also demonstrated racial and ethnic differences in awarded grades. A single academic medical center recently found that students historically UIM (Black or African American, Hispanic, American Indian/Alaska Native, or Native Hawaiian/Pacific Islander) received half as many “honors” grades across all clerkships compared with White students.9 An examination of numeric global assessment rankings in the Standard Letters of Evaluation used to rank 2,884 medical students applying to emergency medicine (EM) programs found that Black applicants were rated lower than White applicants across several domains, including ratings on future success in EM, rank list prediction, and overall applicant ranking.47

[알파 오메가 알파 아너 소사이어티(AOA)]의 회원 자격을 위한 학생 선발에서도 집단 차이가 발생한다. AOA 회원 자격은 미래의 의학에서의 성공을 예측하고 있으며, 회원 자격은 종종 학생들이 가장 경쟁력 있는 레지던트 자리를 얻는 데 유리하다. 최근의 연구는 아시아 의대생들이 백인 학생들보다 AOA에 선발될 확률이 약 50% 낮다는 것을 보여주며, 사회 구성원의 인종과 민족적 불균형을 드러낸다. USMLE 1단계와 2단계 점수, 이중 학위, 연구 생산성, 리더십 활동 및 지역사회 봉사에 전념하는 시간 등 수많은 학업 성취도를 감안하더라도, 흑인 의대생이 백인 학생보다 AOA에 선출될 가능성이 거의 80% 낮다. 이러한 차이는 인종과 소수민족 의대생들이 동등한 성취에 대해 차등적으로 보상을 받는다는 것을 암시한다. 일부 기관들은 이러한 관측 때문에 AOA 회원 자격을 정지하기로 결정했다.

Population group differences also arise in selection of students for membership in the Alpha Omega Alpha Honor Society (AOA). AOA membership is predictive of future success in academic medicine, and membership often advantages students in obtaining the most competitive residency positions.39,48,49 Recent studies reveal racial and ethnic disparities in society membership, with Asian medical students being approximately 50% less likely than White students to be selected into AOA. Black medical students are nearly 80% less likely than White students to be elected into AOA, even when accounting for numerous measures of academic achievement including USMLE Step 1 and 2 scores, dual degrees, research productivity, and hours dedicated to leadership activities and community service.30 This disparity suggests that racial and ethnic minority medical students are differentially rewarded for comparable achievement. Some institutions have chosen to suspend membership in AOA because of these concerning observations.50

서술적 평가, 사무원 직급, 추천서, 명예회원의 이러한 차이는 개인과 직업 모두에게 지속적이고 부정적인 결과를 준다. 2005~2015년 미국 의대 졸업생들을 분석한 결과, 흑인 또는 아프리카계 미국인, 히스패닉계, 아시아계, 미국 인디언/알래스카 원주민 졸업생들은 모두 USMLE 1단계 점수를 감안하더라도 백인 졸업생들보다 GME에서 연수 자리를 확보할 가능성이 낮았다. 게다가, 의대 졸업 후 GME에 배치되지 않은 흑인 및 히스패닉 졸업생들의 수는 연구 내내 증가했다. GME 교육은 의료 면허 취득을 위해 필요하기 때문에, 의과대학 졸업 후 입학을 연기하거나 레지던트 프로그램에 들어갈 수 없는 것은 상당한 학생 부채를 가지고 있는 학생들에게 상당한 경제적 결과를 초래한다. 직업 다양화를 위한 목표에 대한 결과는 분명하다.
These differences in narrative assessments, clerkship grades, letters of recommendation, and honor society membership impart sustained, negative consequences for both individuals and the profession. In an analysis of U.S. medical school graduates from 2005 to 2015, Black or African American, Hispanic, Asian, and American Indian/Alaskan Native graduates were all less likely than White graduates to secure training positions in graduate medical education (GME), even after accounting for USMLE Step 1 scores.51 Moreover, the number of Black and Hispanic graduates unplaced in GME after medical school graduation increased throughout the study. Because GME training is requisite for medical licensure, delayed entry or inability to enter a residency program after medical school has substantial economic consequences for students who may also have considerable student debt. The consequences on goals to diversify the profession are clear.

 

의료교육 평가에서 모집단 차이의 잠재적 원인
Potential causes of population group differences in assessment in medical education

인구 집단 차이는 소수 인종, 민족, 성 소수자 사이의 의료 교육 평가에서 존재한다. 이 문제에 대한 간단한 설명을 찾는 것은 유혹적이다. 일부에서는 평가에서 모집단 차이의 존재만으로도 평가 과정에서 명백한 편견과 차별을 확인한다고 주장해왔다. 확실히, 일부 평가는 잘못 설계될 수 있고, 일부 평가자는 일관되게 편향될 수 있다. 다른 사람들은 집단 차이가 영향을 받는 집단 내의 다른 적성을 반영한다고 주장한다. 실제로, 의과대학 내에서, 많은 다른 사회 집단과 정체성의 다른 학생들은 다양한 전공에 대한 다른 적성과 관심을 보여준다. 만약 이 문제의 원인이 [개별 학습자 또는 평가자 수행]에 있다면, 우리는 [서로 다른 평가 방법]을 가진 [서로 다른 기관]에서 수행된 연구에서, [동일한 결과]를 볼 것으로 기대하지 않을 것이다. WRIM 학생을 유리하게 하는 차이의 [보편성과 일관성]은 체계적 힘이 작동하고 있을 가능성이 있음을 시사한다.
Population group differences exist in medical education assessments between majority and racial, ethnic, and gender minorities; they constrain individuals’ opportunities and contribute to challenges in diversifying the profession. It is tempting to seek a simple explanation to this problem. Some have argued that the mere existence of population group differences in assessment confirms overt bias and discrimination in the assessment process. Certainly, some assessments may be poorly designed, and some assessors may be consistently biased. Others have posited that population group differences reflect differential aptitude within affected populations. Indeed, within any medical school, different students from many different social groups and identities demonstrate different aptitudes for and interest in various specialties. If the origins of this problem resided with individual learner or assessor performance, we would not expect to see the same results in studies done at different institutions with different assessment methods. The universality and consistency of differences advantaging those from groups WRIM suggest that systematic forces are likely operational.

다른 사악한 문제와 마찬가지로, 평가의 불평등 문제를 해결하기 위해서는 가능한 원인과 잠재적인 해결책에 대한 더 넓은 시각이 필요하다. 공공 보건에 사용되는 [사회-생태학적 모델]은 개인의 결과가 더 광범위한 조직 및 사회 시스템의 맥락에서 고려되어야 한다는 것을 인식한다. 평가에서 형평성 문제에 이 모델을 적용하면 관찰된 모집단 차이의 가능한 원인에 대한 통찰력을 제공하고 여러 수준에서 개입을 계획할 필요성을 보여준다(그림 2 참조).

As with other wicked problems, solving the problem of inequity in assessment requires a broader view of possible causes and potential solutions. The social–ecological model used in public health recognizes that individual outcomes must be considered in the context of broader organizational and social systems.52 Applying this model to the issue of equity in assessment provides insights into possible causes of observed population group differences and illustrates the need to plan interventions at multiple levels (see Figure 2).

 

평가의 형평성에 대한 우리의 작업 정의는 평가의 불평등에 대한 그들의 잠재적 기여에 대한 제도적 시스템을 테스트하는 데 사용될 수 있다. 평가의 형평성은 학생들이 다음을 할 수 있는 공평한 기회를 가질 때 존재한다. 

  • 학습(맥락적 형평성); 
  • 평가, 코칭(학습을 위한 평가) 
  • 성적, 진급, 졸업(학습의 평가) 
  • 입증한 성과에 기초한 후속 기회에 선발. 이 때 입증한 성과는
    • 미래의 성공을 예측해야 하고(도구적, 순위를 위한 평가)
    • 학습 경험이나 평가가 학습자, 평가자 또는 환경의 개인적 또는 사회적 특성과 관련된 [구조적 또는 대인적 편견에 의해 영향을 받지 않아야] 한다.

Our working definition of equity in assessment can be used to test institutional systems for their potential contributions to inequity in assessment. Equity in assessment is present when students have equitable opportunities to:

  • learn (contextual equity);
  • be evaluated, coached (assessment for learning);
  • be graded, advanced, graduated (assessment of learning); and
  • be selected for subsequent opportunities based on demonstrated achievements
    • that predict future success in medicine (instrumental, assessment for ranking) and
    • that neither learning experiences nor assessments are influenced by structural or interpersonal bias related to personal or social characteristics of the learner, assessor, or context of the assessment. 

이러한 조건이 충족되지 않으면 평가의 불평등이 존재한다. 

Inequity in assessment exists if these conditions are not met. Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B18 summarizes examples of inequity in each of these domains relevant to assessment.

프로그래밍 평가 전략을 설계하는 교육자의 직접적인 통제 하에 있지 않을 수도 있지만 [맥락적 형평성]을 고려하는 것은 필수적이다. [특정 모집단에 체계적으로 불이익을 주는 학습 환경의 과제]를 해결하지 않고, [내재적 및 도구적 평가 절차와 정책에서 형평성]만을 최적화하는 작업이 수행된다면, 평가 결과의 불평등은 유지될 것이다. 
It is vital to consider contextual equity, even though it may not be under the direct control of educators who design programmatic assessment strategies. If work is done to optimize equity in intrinsic and instrumental assessment procedures and policies without addressing challenges in the learning environment that systematically disadvantage one population and not others, then inequity in assessment outcomes will remain. Case studies outlined in Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/B18 illustrate how the elements of inequity impact learners in the clinical learning environment.

모집단 그룹 차이는 불평등이나 편견이 아닌 다른 이유로 발생할 수 있습니다. [특정 모집단이 평가 프로세스에 의해 평가되고 측정된 특성을 일관되게 보여줄 가능성]이 더 높기 때문에 모집단 그룹 차이가 존재할 수도 있다. 위제세케라와 동료들은 공감과 환자 중심성을 강조하는 기준으로 여성이 남성보다 2배 이상 골드 휴머니즘 아너 소사이어티(GHHS)에 가입할 가능성이 높다고 확인했다. 평가에서 형평성에 대한 우리의 [작업 정의working definition]는 [특정 모집단이나 그룹이 가치 있는 특성을 일관되게 보여줄 가능성이 더 높은지] 또는 [선택 과정이 불평등한지] 여부에 대한 질문을 탐구하기 위한 렌즈이다.

  • 여성이 남성보다 공감과 환자 중심성이 더 뛰어난가(개인의 적성과 성취도)
  • 남성이 공감과 환자 중심성을 보여주는 방법이 평가자 및/또는 평가 방법에 의해 동등하게 포착되었는가(내재적 형평성)
  • 남성과 여성은 이러한 특성을 입증하기 위해 예상되는 방법으로 코칭을 받을 수 있는 기회가 동등한가? ('학습을 위한' 맥락과 평가)
  • 평가 맥락은 남성과 여성이 이러한 특성을 입증할 수 있는 동등한 기회를 허용하는가? ('학습의' 맥락과 행동)
  • 마지막으로, 조직적 가치 설명: 
    • 이러한 특성이 미래의 의사들에게 측정되고 개인을 구별하는 데 사용될 만큼 충분히 중요한가? (본질적 및 도구적 형평성) 

Population group differences may occur for reasons other than inequity or bias. Population group differences may exist because one population is consistently more likely to demonstrate the characteristics valued and measured by the assessment process. Wijesekera and colleagues identified that women were more than twice as likely as men to be inducted into the Gold Humanism Honor Society (GHHS), with criteria emphasizing empathy and patient centeredness.53 Our working definition of equity in assessment is a lens to explore the question of whether one population group is consistently more likely to demonstrate the characteristics valued or whether the selection process is inequitable.

  • Do women have more empathy and patient centeredness than men (individual aptitude and achievement)?
  • Are the ways that men demonstrate empathy and patient centeredness equally captured by assessors and/or by the assessment method (intrinsic equity)?
  • Do men and women have equal opportunity to receive coaching (context and assessment for learning) in the expected ways to demonstrate these traits?
  • Does the assessment context allow men and women equal opportunities to demonstrate these traits (context and conduct of learning)?
  • And finally, an organizational value statement:
    • Are these traits important enough to future physicians to be measured and used to differentiate among individuals (intrinsic and instrumental equity)?

이 예는 남성과 여성 학생을 다르게 형성하는 선행 기관, 문화 및 경험의 중요성을 강조하며, 평가 전략에 대한 유효한 질문을 제기하는 동시에 이러한 특징의 입증에 진정한 차이를 초래할 수 있다. GHHS가 이러한 발견에 어떻게 반응하는지는 제도적 가치를 반영하고 구체화하며 궁극적으로 촉진할 것이다.

This example both highlights the importance of antecedent institutions, cultures, and experiences that shape men and women students differently and may lead to true differences in demonstration of these traits while also raising valid questions about assessment strategies. How the GHHS responds to these findings will reflect, embody, and ultimately promote institutional values.

의료교육의 공정성 평가체계
A Framework for Equitable Assessment in Medical Education

의료 교육 평가의 형평성과 공정성에 대한 문헌의 통찰, 의료 교육 평가에서 평가의 차이가 존재하는 이유에 대한 가설, 고품질 평가를 지원하는 이론을 바탕으로 [평가의 형평성을 고려하기 위한 프레임워크]를 제안한다. 이 프레임워크는 효과적인 조직이 목적 중심적이고 원칙적인 플랫폼에서 개선 작업을 시작한 후 문화를 형성하고 시스템을 구축하며 이러한 원칙을 반영하는 결과를 달성할 수 있는 도구를 선택하는 것을 인식하는 조직 우수성을 위한 Shingo 모델을 기반으로 합니다. 목록 1은 [평가의 형평성을 위한 Shingo 모델] 적용을 가이드하는 원칙을 요약한 것이다.
Drawing on insights from the literature on equity and fairness in medical education assessments, hypotheses for why disparities in assessment exist in medical education assessment, and theories supporting high-quality assessment, we propose a framework for considering equity in assessment. This framework is based on the Shingo model for organizational excellence, which recognizes that effective organizations begin their improvement work from a purpose-driven and principled platform and then move to shape the culture, build the systems, and select the tools that can achieve the results that reflect those principles.54 List 1 outlines principles that guide application of the Shingo model to equity in assessment.

가이드 원칙
Guiding principles

특정 기관의 평가 결과는 여러 기관 및 조직(전공의 및 펠로우십 프로그램, 면허 및 인증 위원회, 병원 자격 부여 부서, 전문 사회 및 정부 당국)에 의해 사용될 것이기 때문에, 의학교육에서의 [평가의 형평성에 대한 모델]은 [프로그램 및 의료 기관의 경계를 평등을 초월]해야 한다. 따라서 의료 교육에서 평가에서 형평성을 성공적으로 달성하려면 의료 및 의료 교육에서 우리의 업무에서 필수적인 요소로서 형평성을 발전시키기 위한 [전국적인 집단적 약속]이 필요하다.
Because results of assessments at any given institution will be used by multiple institutions and organizations (residency and fellowship programs, licensing and certifying boards, hospital credentialing units, professional societies, and governmental authorities), a model for equity in assessment in medical education must transcend program and institutional borders. Thus, successfully achieving equity in assessment in medical education requires a nationwide, collective commitment to advance equity as an essential element in our work in health care and medical education.

의학교육에서 모든 평가의 목적은 [모든 졸업생]이 [모든 환자]에게 [고품질의 환자 중심적이고 공평한 치료]를 제공하는 데 [필요한 역량]을 입증하는 것이다. 이러한 목적은 의료 및 의료 교육 문화의 설계, 구현 및 지속적인 개선, 학습자를 평가, 평가, 승진, 졸업 및 인증하기 위해 사용하는 시스템과 전략, 그리고 전략을 구현하기 위해 선택하는 도구를 추진해야 합니다.

The aim of all assessment in medical education is to ensure that every graduate of schools and training programs has demonstrated the competencies needed to provide high-quality, patient-centered, equitable care for all patients. This purpose must drive the design, implementation, and continuous improvement of the culture of medicine and medical education; the systems and strategies we use to assess, grade, promote, graduate, and certify learners; and the tools we select to implement our strategies.

문화
Culture

문화는 조직의 규범, 기대, 신념, 가치를 나타냅니다. 문화적 규범은 명시적이고 암묵적이며 조직 내 개인들이 보여주고 보상하는 행동에 반영된다. 분위기climate는 [문화의 개별적인 경험]이다.
Culture represents an organization’s norms, expectations, beliefs, and values. Cultural norms are both explicit and tacit and are reflected in the behaviors exhibited and rewarded by individuals in the organization. Climate is the individual experience of culture.


형평성과 포용을 지지하는 문화를 달성하려면 우리가 의학에서 수월성을 정의하고, 개발하고, 인식하는 방법에 대한 오랜 믿음의 재보정이 필요하다. 21세기에는 복잡한 만성질환 환자를 돌보기 위해 필요한 팀 기반 전달 모델이 모든 팀원이 우수해야 한다. 그러므로 우리 환자와 공동체의 건강에 중요한 것은 [최고의 의사가 얼마나 훌륭한가]가 아니라, [모든 의사가 얼마나 훌륭한가]이다. 이 견해는 평가의 형평성과 잘 맞아떨어진다. 우리의 평가 문화는 모든 학습자들이 이러한 성장을 지원하기 위해 헌신하는 시스템과 다른 전문가들의 도움을 받아 의료 경력을 통해 성장하고 발전해야 한다는 믿음을 수용해야 한다. 우리의 초점은 [졸업반 중 상위 10%를 식별하는 것]이 아니라, [모든 졸업생이 안전하고 질 높은 환자 치료에 필요한 역량 임계값을 초과하는지 확인하는 평가를 설계하는 것]이어야 한다.
Achieving a culture that supports equity and inclusion requires recalibration of long-standing beliefs about how we define, develop, and recognize excellence in medicine. In the 21st century, the team-based delivery model needed to provide care for patients with complex chronic diseases requires that all team members be excellent. Therefore, what matters to the health of our patients and communities is not how good the very best physician is, but how good every physician is. This view aligns well with equity in assessment. Our culture of assessment must embrace the belief that all learners can and must grow and develop throughout their medical careers, aided by systems and other professionals committed to supporting this growth. Our focus must be to design assessments to ensure every graduate exceeds the competency thresholds necessary for safe, high-quality patient care, rather than to identify the top 10% of a graduating class.

평가 시스템
Systems of assessment

시스템은 평가에서 내재적 형평성을 지원하도록 설계되어야 한다.
Systems must be designed to support intrinsic equity in assessment.

교육자는 다음과 같은 시스템을 설계해야 한다.

  • 평가 기준을 명시적으로 밝히고,
  • 학습 기회를 균등화하고,
  • 모든 학습자에게 형성적 피드백을 제공하고,
  • 개별 평가자의 무의식적 편견이 학습자의 성적에 미치는 해로운 영향을 최소화하고,
  • 성과 사고방식보다는 성장형 사고방식을 인식하고 보상

Educators must engineer systems that

  • explicitly articulate criteria for assessment,
  • equalize the learning opportunities,
  • provide formative feedback for all learners,
  • minimize the deleterious impact of unconscious bias of any individual evaluator on a learner’s grades, and
  • recognize and reward growth rather than performance mindset.

경험적 데이터가 공평한 평가 프로그램의 설계를 안내하는 것은 거의 없지만, 평가를 위한 두 가지 현재 프레임워크는 형평한 평가 프로그램의 개발을 지원할 수 있다:competency-based medical education (CBME) and programmatic assessment focused on equity. 이러한 접근법은 평가 및 평가 결과의 불평등에 기여하는 개인과 그룹의 무의식적 편견을 최소화할 수 있는 잠재력을 가지고 있다.

While little empirical data guide the design of equitable programs of assessment, 2 current frameworks for assessment align with and can support development of equitable programs of assessment: competency-based medical education (CBME) and programmatic assessment focused on equity. These approaches have the potential to minimize unconscious bias in individuals and groups that contribute to inequities in assessment and assessment outcomes.

[CBME]는 의학교육의 기대 성과를 정의하고 이정표를 사용하여 역량 달성 예상 궤적을 요약한다. CBME의 평가는 의과대학에서 독립적인 실습으로 이어지는 연속체에 있는 모든 개인들이 계속해서 배우고 성장하고 있다는 믿음에 기초한다. 이와는 대조적으로, [전통적인 평가 방식]은 [성장을 지원하는 것]이 아니라, [단점이 있는 학습자를 식별]하는 데 초점을 맞추고 있습니다. 이러한 [결핍deficit 접근법]은 불균형적으로 UIM 학습자에게 불리하며, 모든 학습자의 성장 마인드를 배양하기 위해 평가 정보를 사용할 기회를 놓친다. 학습의 관점에서, [고군분투하는 학습자를 식별하는 데 초점을 맞추는 것]은 전형적으로 [모든 학습자가 개발이 필요한 영역을 가지고 있고 지속적으로 학습하고 성장하는 것으로 가정되는 발달 초점developmental focus]과 배치된다. 철저한 의예과 교육을 받지 못하는 것은, UIM 학습자에게 불균형적으로 영향을 미치는 흔한 시나리오로, 이렇게 [고군분투하는 학습자]로 분류될 수 있다. 일단 이 딱지가 붙으면, 학습자는 개인적으로나 직업적으로나 그 결과에 시달리게 된다.
CBME defines desired outcomes of medical education and outlines the expected trajectory of competency achievement using milestones.55–57 Assessment in CBME is based on the belief that all individuals on the continuum of medical school into independent practice are continuing to learn and grow.58 In contrast, traditional approaches to assessment focus not on supporting growth but on identifying learners with shortcomings.59–62 This deficit approach disproportionately disadvantages UIM learners and misses the opportunity to use assessment information to foster a growth mindset in all learners. From a learning perspective, a focus on identifying struggling learners typically contradicts a developmental focus in which all learners are assumed to have areas in need of development and to be continuously learning and growing.63 Any learner with less exposure or less rigorous premedical training, scenarios that disproportionately affect UIM learners, is particularly vulnerable to being labeled a struggling learner. Once this label is applied, the learner suffers the consequences, both personally and professionally.

[형평성에 초점을 맞춘 프로그램 평가]는 개별 학습자와 학습자의 궤적에 대한 [총체적이고 균형 잡힌 관점]을 위해 노력합니다. 이 목표는 여러 가지 다른 맥락에서 학습자의 작업의 많은 샘플을 수집하고 분석함으로써 달성된다. 정량적 데이터 외에도 수행에 대한 [내러티브 설명자]와 같은 [정성적 평가]는 학습자 개선을 안내하고 학습자 역량에 대한 엄격한 결정에 기여할 수 있는 수행의 뉘앙스에 대한 정보를 제공한다.64

Programmatic assessment focused on equity strives for a holistic, well-rounded view of individual learners and their trajectory. This aim is achieved by collecting and analyzing many samples of learners’ work in multiple different contexts. In addition to quantitative data, qualitative assessments, such as narrative descriptors of performance, provide information about the nuances of performance that can guide learner improvement and contribute to rigorous decisions about learner competence.64

형평성을 더욱 서포트하기 위하여, [프로그램 평가]에는 진급과 졸업에 대한 높은 이해와 종합적 결정을 하기 위해 개인이 아닌 [위원회에 의존하는 시스템]이 포함된다. 형평성을 높이기 위한 최적의 위원회 구조와 기능의 세 가지 핵심 요소가 있다.

  • 그룹 구성원 자격
  • 데이터 관리
  • 의사 결정 절차가 .

For further support of equity, programmatic assessment includes systems that rely on committees rather than individuals to make high-stakes, summative decisions about advancement and graduation.65,66 Three critical elements of optimal committee structure and function can advance equity:

  • group membership,
  • data management, and
  • decision-making procedures.

 

  • [그룹]은 [많은 데이터 포인트]로 무장하여, ["군중의 지혜"가 충분히 고려된 결정]을 내리기 위해 다양한 의견을 끌어낼 수 있는 기회를 만든다. 구성원들이 의사결정의 질을 강화하기 때문에 [다양한 집단]이 개인이나 동질적 집단보다 낫다. [흔한 편견에 대한 교육]은 공정한 평가를 위하여, [인지적 지름길에 대한 인간의 취약성]이나 [학습자의 기회를 단축시킬 수 있는 개인적 선호]를 인식하게 한다.
  • [이용 가능한 양질의 데이터]와 [잘 조직된 정보에 대한 접근 용이성]은 그룹 의사 결정을 강화합니다. 여러 출처의 균형 잡힌 데이터가 없을 경우, 그룹 구성원은 인상이나 제한된 데이터에 기초한 결정을 내릴 수 없으며, 이는 다시 편향의 위험을 초래하는 과정이다.
  • 마지막으로, [데이터 검토 및 그룹 토론을 위한 구조화된 절차]는 모든 학습자가 사용 가능한 정보의 총체를 기반으로 평가되도록 합니다.
  • A group invites opportunity for the “wisdom of the crowd,” armed with a large number of data points, to draw on a diversity of opinions to make well-considered decisions. Diverse groups outperform individuals or homogeneous groups because members strengthen the quality of decisions made.67 Training about common biases brings awareness of the human vulnerability for cognitive shortcuts and personal preferences that can shortchange every learner’s opportunity for fair assessment.68 
  • The quality of data available and ease of accessing well-organized information strengthen group decision making. Absent well-rounded data from multiple sources, group members may default to making decisions based on impressions or limited data, a process that again introduces risk for bias.
  • Finally, structured procedures for data review and group discussions help ensure that all learners are evaluated based on the totality of information available.

시스템은 상황별 형평성을 해결하도록 설계되어야 합니다.
Systems must be designed to address contextual equity.


평가 결과에서 형평성을 달성하려면 [맥락적 형평성]에 대한 주의가 필요합니다. 평가의 커리큘럼과 프로그램은 모두 다른 제도 시스템, 특히 교수-학습을 위하여 [환자 진료와 교수 지원을 조정하는 시스템]에 크게 의존한다. 평가 시스템을 설계하는 교육자들은 소수자 학습자들을 위한 학습 환경을 최적화하기 위해 학업 건강 시스템의 다른 지도자들과 협력해야 한다.
Achieving equity in assessment outcomes requires attention to contextual equity. Both curricula and programs of assessment are highly dependent on other institutional systems, specifically those that orchestrate patient care and faculty support for teaching and learning. Educators who design systems of assessment must work with other leaders in academic health systems to optimize the learning environment for minority learners.

시스템은 평가 결과에서 도구적 형평성과 형평성을 다루도록 설계되어야 한다.
Systems must be designed to address instrumental equity and equity in assessment outcomes.

인가자(의료교육 및 대학원 의료교육 인가위원회)와 평가 데이터를 수집 및 사용하는 조직의 리더(전국 거주자 일치 프로그램, 인증 위원회)는 [형평성 원칙에 부합하는 데이터 프레젠테이션 시스템]을 설계하여 평가의 형평성을 지원할 수 있다. 교육 기관 및 리더가 [평가 데이터를 의도된 목적으로만 사용할 책임]을 갖게 해야 한다.
Accreditors (Liaison Committee on Medical Education and Accreditation Council for Graduate Medical Education) and leaders of organizations that collect and use assessment data (National Resident Match Program, certifying boards) can support equity in assessment by designing systems of data presentation that align with principles of equity and by holding educational institutions and leaders accountable for using assessment data only for intended purposes.

도구들
Tools

[도구]는 시스템 내에서 원하는 결과를 얻기 위해 개인이 사용하는 기술, 프로세스, 인센티브 및 디스인센티브를 말합니다. 공평한 평가에 사용되는 도구를 선택하여 시스템 우선 순위를 지원하고 운영합니다. 도구에는 다음이 포함된다.

  • 증거 찾기 도구(환자, 임상 추론 및 필기 작업 제품과의 상호작용에 대한 학습자의 직접 관찰 및 토론),
  • 데이터 표시 도구,
  • 데이터 분석 도구,
  • 교수 개발 도구
  • 커뮤니케이션 도구

Tools are the technologies, processes, incentives, and disincentives employed by individuals within the system to achieve desired results. Tools used in equitable assessment are selected to support and operationalize system priorities. Tools include

  • evidence-seeking tools (direct observation of and discussion with learners about interactions with patients, clinical reasoning, and written work products),
  • data display tools,
  • data analytic tools,
  • faculty development tools, and
  • communication tools.

결과.
Results

[결과]는 평가 모델의 가이드 원칙을 보여주고, 확인하게 해주는 측정 가능한 결과입니다. 결과는 원하는 결과를 달성하기 위해 설계된 도구와 시스템을 다듬는 데 필수적인 [피드백 메커니즘]을 제공합니다. 결과는 기관, 조직 또는 전문 의료 교육 커뮤니티의 문화를 강화합니다.
Results are the measurable outcomes that demonstrate and affirm the assessment model’s guiding principles. Outcomes serve an essential feedback mechanism for refining the tools and systems engineered to achieve the desired results. Results reinforce the culture of the institution, organization, or professional medical education community.

의료 서비스 제공과 의료 교육에 있어 형평성을 증진하기 위한 우리의 약속을 이행하기 위해 개인, 기관 및 국가 조직은 목록 1에 설명된 결과를 위해 노력해야 한다. [평가를 위한 형평성 원칙]과 [증거 기반 전략]을 고수한다고 해서, 특정 기관이 class마다 존재하는 모든 인구 집단 차이를 피할 것이라는 보장은 없다. 주어진 class의 크기가 작거나, 해마다 학생들의 흥미와 포부가 다양하기에, 모든 차이도 제거하는 것이 불가능할 수 있다. 대신, 의료 교육에서 평가의 형평성이 달성되었다는 [더 나은 지표]는 [역사적으로 URM이거나 의학에 의해 소외된 그룹의 학습자 모집단]에 대해서 [국가 수준의 차이가 없다는 것]이다.

To fulfill our commitment to advancing equity in health care delivery and in medical education, individuals, institutions, and national organizations must commit to striving for the results outlined in List 1. Adhering to equity principles and evidence-based strategies for assessment does not guarantee that any given institution will avoid all population group differences in their classes. The small sample size of a given class and variability of student interest and aspirations from year to year may make a goal of eliminating any differences unfeasible. Instead, a better indicator that equity in assessment in medical education has been achieved will be the absence of national-level disparities for populations of learners from groups that are historically URM or that have been marginalized by medicine.

연구 의제
Research Agenda

위에서 제안한 평가의 형평성 모델은 의료 교육 시스템에 만연해 있는 불평등을 해결하기 위한 약속을 요구한다. 편견과 차별의 감소를 입증하는 필요한 증거 수집을 안내하는 강력한 연구 의제는 아래에 요약되어 있다.
The above proposed model for equity in assessment demands commitment to addressing inequities that have pervaded the medical education system. A robust research agenda to guide the collection of needed evidence demonstrating reduction in bias and discrimination is outlined below.

평가에서 [내재적 형평성]에 대한 연구
Research into intrinsic equity in assessment

학습자 평가: UIM 학습자의 성공에 대한 장애물과 장벽에 대해 많이 쓰여졌지만, [반-결핍antideficit 렌즈]는 UIM 학습자를 성공을 위해 포지셔닝하는 강점과 특성에 초점을 두는 다른 접근 방식을 취한다. 하퍼의 엄격한 작업은 대학 교육을 준비하고 추구하는 [흑인 남성의 (단점보다는) 성공에 기여한 요소들을 묘사하기 위해 반-결핍 렌즈를 사용]했다. 이 접근법은 UIM 학습자들이 성공을 거두도록 하는 동기, 성과 특징, 개인 및 제도적 특성을 연구하는 모델 역할을 할 수 있다. 

Learner assessment: While much has been written about obstacles and barriers to success for UIM learners, the antideficit lens takes a different approach by drawing focus to the strengths and characteristics that position UIM learners for success. Harper’s rigorous work used an antideficit lens to describe the factors that contributed to success rather than the shortcomings of Black men preparing for and pursuing college education. This approach can serve as a model for studying the motivations, performance features, and individual and institutional characteristics that set UIM learners up for success.69

교육자들은 실제의 성공을 예측하는 학습자 궤적의 특성을 설명하는 엄격한 연구로부터 이익을 얻을 것이다. 그런 다음 교육자는 바람직한 학습자 궤적에 대한 유효한 데이터를 캡처할 수 있는 평가 방법을 결정하여 표준 평가 방법에서 초점을 이동할 수 있다.

Educators will benefit from rigorous studies that explicate the characteristics of learner trajectories that predict success in practice. Educators can then determine which assessment methods can capture valid data about favorable learner trajectories and, thus, shift focus away from normative assessment methods.

[맥락적 형평성] 평가 연구
Research into contextual equity in assessment

학습자 경험: UIM 학습자를 위한 학습 환경의 영향력 있는 측면을 이해하면 연구자들은 환경, 학습자 만족도 및 성취도 사이의 관계를 조사하여, [UIM 학습자의 성취를 최대화할 기회를 방해하는 구조적 장벽을 해결하는 개선 사항]을 알릴 수 있다. 학습 환경의 개인, 사회적, 물리적 및 조직적 요소에 초점을 맞춘 또 다른 접근 방식은 UIM 학습자의 고유한 경험을 평가하고 성장에 역행하는 경험을 해결하기 위한 솔루션을 제안할 수 있는 잠재력을 가진 그룹펜의 프레임워크이다. 

Learner experience: Understanding the influential aspects of the learning environment for UIM learners empowers researchers to examine relationships between the environment, learner satisfaction, and achievement to inform improvements that address any structural barriers impeding UIM learners’ opportunities to maximize their achievement.70 Another approach, with a focus on person, social, physical, and organizational elements of the learning environment, is Gruppen’s framework, which holds potential for evaluating unique experiences of UIM learners and proposing solutions to address experiences that are counter to growth.71

교육과 환자 관리를 모두 최적화하기 위한 이중 목표를 가진 현재 임상 학습 환경은, 해결책을 찾기 위해 조사할 가치가 있는 긴장을 조성한다. 순환형 의학교육 모델에서 학습자와 감독자, 특히 다른 배경이나 정체성을 가질 수 있는 감독자 사이의 [의미 있는 관계와 신뢰를 배양하는 시스템과 구조]에 대한 추가 연구가 필요하다. 이 작업에는 조직 문화와 분위기를 최적화하는 데 중점을 두어야 합니다. 조직은 다양성과 포괄성을 지지하지만, 고위 구성원의 오랜 이데올로기를 바꾸거나 미시적 공격을 최소화하기 위해 고군분투할 수 있다. 이러한 문제에 개입하기 위한 증거 기반 전략이 필요하다.

The current configuration of the clinical learning environment, with dual aims to optimize both education and patient care, creates tensions that deserve investigation to find solutions. Further research is needed into systems and structures that foster meaningful relationships and trust between learners and supervisors, particularly those who may be of different backgrounds or identities, in a rotational model of medication education. This work must include a focus on optimizing organizational culture and climate. An organization may espouse diversity and inclusivity, but struggle to change long-standing ideologies of senior members or minimize microaggressions; evidence-based strategies for intervening on these problems are needed.

평가의 [도구적 형평성]에 관한 연구
Research on instrumental equity in assessment

[교육 프로그램에서 선발]은 의사 결정에 영향을 미칠 수 있는 의식적 또는 무의식적 편향의 가능성이 있기에, 추가 연구를 수행할 가치가 있는 학습자 평가의 또 다른 측면이다. 보건 직업 훈련 프로그램에 대한 입학을 조사하는 현재의 증거는 주로 단일 기관 연구로 구성되어 있지만, 일반적으로 개입이 계층 구성을 다양화하는 데 효과적이라는 것을 고무적으로 보여준다. UIM을 비롯한 다양한 학습자들이 보건 직업 분야에서 성공을 거둘 수 있도록, 선발 뿐만 아니라 학업적 지원에 대한 효과적인 접근 방식을 입증하기 위해 멀티센터, 종적 연구를 통한 추가 연구가 필요하다. 연구 노력은 평가의 긴장을 인정해야 한다. 예를 들어, [학습을 위한 평가] 대 [순위를 위한 평가와 선발] 사이의 긴장은 평가의 형평성에 관한 논의에서 중심적인 것으로 남아있다.

Selection of learners for positions in training programs is another aspect of learner assessment deserving of further research due to potential for conscious or unconscious bias to influence decision making. Current evidence examining admissions to health professions training programs comprises mainly single-institution studies but encouragingly shows that, in general, interventions are effective at diversifying class composition.72 Further research is needed through multicenter, longitudinal studies to demonstrate effective approaches to not only selection but also academic support to ensure that UIM and other diverse learners achieve success in health professions careers. Research efforts must acknowledge tensions in assessment.73 For example, the tension between assessment for learning vs assessment for ranking and selection remains central in discussions regarding equity in assessment.

평가의 형평성을 지원하는 [교수의 역할]에 관한 연구
Research on preparation of faculty for their roles supporting equity in assessment

교수 개발: 연구에 따르면 의사의 암묵적 편견이 환자에게 미치는 부정적인 영향이 있다. 의학 학습자의 평가에도 유사한 편견이 존재한다. 편중 위험을 최소화하는 고품질 평가를 수행하기 위해 교직원 육성의 편익을 어떻게 개입하고 측정할 수 있는지 이해하기 위한 연구가 필요하다.

Faculty development: Studies demonstrate the negative effects of physicians’ implicit bias on their patients74; similar bias exists in evaluation of medical learners.9,30 Research is needed to understand how to intervene and measure the benefits of faculty development to conduct high-quality assessment that minimizes the risks of bias.

[평가 결과]의 형평성에 대한 연구
Research into equity in assessment outcomes

[공정한 평가 실천]이 [학습자 및 학습자가 복무할 환자에게 더 나은 결과를 제공하는지 여부와 방법]을 확인하기 위해 증거가 필요하다. 예를 들어, [제공자의 문화적 역량을 강화하기 위한 개입]은, 선의는 있지만, 모두 원하는 결과를 달성하지는 못한다. 어떤 평가 접근법이 학업적 커리어 뿐만 아니라, 모든 전공 분야와 환경에서 UIM 학습자의 진로 추구를 최적화하는지를 검토하기 위한 연구가 필요하다.

Evidence is needed to confirm whether and how equitable assessment practices produce better outcomes for learners and the patients they serve. For example, interventions to enhance providers’ cultural competency, though well-intentioned, do not all achieve desired outcomes.75 Research is needed to examine what approaches to assessment optimize UIM learners’ pursuit of careers in any and all specialties and settings as well as in academic careers.

[프로그램 평가]를 위한 평가 연구
Research into assessment for program evaluation

평가에서 불평등과 편향에 대응하려면, 프로그램 평가에 세심한 주의를 기울이는 프로그램 접근법이 필요하다. 프로그램 평가에 대한 [현실주의적 접근]은 어떤 개입이 효과가 있는지, 효과가 없는지를 묻는 것뿐만 아니라 개입의 맥락을 고려함으로써 이러한 요구를 충족시킨다. 간단히 말해서, 현실주의 평가는 다음과 같이 묻습니다. "어떤 상황에서 누구에게 효과가 있고, 왜 효과가 있는가?" 맥락을 이해하면 다른 프로그램들이 그들 자신의 문맥에 대한 개입의 타당성과 적용 가능성을 고려할 수 있다.

Counteracting inequity and bias in assessment requires a programmatic approach with careful attention to program evaluation. A realist approach to program evaluation meets these needs not only by asking what interventions work or don’t work but also by considering the context of the interventions. Put simply, realist evaluation asks: “What works for whom in what circumstances, and why?”76 Understanding the context allows other programs to consider the feasibility and applicability of interventions to their own context.

과제 및 의도하지 않은 결과
Challenges and Unintended Consequences

형평성에 대한 논의는 많은 사람들에게 불안감을 주고, 능력(주의)의 개념에 직면한다. 미국 사회의 "근본적 신화"라고 불리는 능력merit은 개인의 재산, 그의 (심리학) 직업윤리와 본질적인 재능으로 여겨진다. 이 때 능력은 오로지 자수성가에 의한 것으로, 사회적 집단이나 부모의 유산이 아니다. 예를 들어, 리베라의 연구는 문화적 자본이 어떻게 엘리트의 아이들이 다음을 할 수 있게 하는지를 설명한다.

  • 면접을 더 잘 수행하고 면접 전에 더 많은 코칭을 받고,
  • 의사 결정권자와의 유대감과 미러링을 가능하게 하는 어린 시절의 경험을 쌓고,
  • 실수의 부정적 여파를 최소화하고 (실수가 고정관념으로 연결되는 학생에 비해),
  • 또는 매우 경쟁력 있는 직업을 확보하는 데 필요한 적합성, 추진력, 기술 및 재능을 발휘합니다. 

Any discussion of equity assessment creates unease for many and confronts the notion of merit. Termed “the foundational myth” of U.S. society, merit is thought to be a property of the individual, his (sic) work ethic and intrinsic talents.77 Merit is Horatio Alger’s alone—not a property of a social group or a parental legacy. Rivera’s research, for example, describes how cultural capital enables children of the elite to:

  • perform better in interviews and receive more coaching before interviews;
  • have childhood experiences that allow for more bonding and mirroring with decision makers;
  • have mistakes discounted (vs students for whom mistakes confirm stereotypes); and
  • otherwise exhibit the fit, drive, skills, and talents necessary to secure a highly competitive job.78 

[진정한 능력주의의 존재에 도전하는 것]은 힘든 싸움으로 남아있다.
Challenging the existence of a true meritocracy remains an uphill battle.

형평성 평가에 대한 논의에 대한 또 다른 도전은 편견과의 연결이다; 많은 교육자들은 무의식적인 편견의 개념을 거부한다. 평가의 형평성은 모든 학습자가 환자를 돌보는 데 필요한 기술, 지식 및 역량을 평가하도록 보장하는 것입니다. 마지막으로, 어떤 평가 시스템도 사회적 불평등으로 인한 집단 차이를 없애지 못할 것이다. 부분적으로, 그것은 엘리트들이 적응하기 때문이다. SAT 시험은 엘리트 대학에 재능 있는 청소년 기회를 제공하기 위해 개발되었다. 개발자들은 시험 준비 서비스가 뒤따를 것이라고는 꿈에도 생각하지 못했다. 평가의 형평성 추진은 학습의 형평성과 사회적 불평등에서 파생되는 기회와 연결되기 때문에 지속적인 품질 개선의 과정이어야 한다.

Another challenge to discussions of equity assessment is the link to bias; many educators reject the notion of unconscious bias. Equity in assessment is about ensuring that we assess all learners for the skills, knowledge, and competencies required to care for their patients. Finally, no system of assessment will do away with group differences due to social inequities. In part, that is because elites adapt. The SAT test was developed to offer talented youth opportunities to elite colleges. Its developers never dreamed that test prep services would follow. Because the drive for equity in assessment is linked to equity in learning and opportunities that derive from social inequities, it must be a process of continuous quality improvement.

결론
Conclusion

우리는 다양한 형태의 평가와 불평등의 다양한 측면을 구별하면서 평가의 형평성 문제를 조사했다. 평가의 불평등에 기초한 증거에 의해 통보된 이 원고는, [형평성을 달성하기 위해 평가를 최적화하기 위한 프레임워크]를 제시한다. 형평성 논의의 근저에 있는 핵심 이슈는 궁극적으로 환자의 건강을 개선할 평가의 형평성을 달성하기 위해 지속적으로 필요한 연구와 관행 개선을 위한 의제로 작용한다. 개별 의과대학은 우리의 학습과 환자 치료 생태계를 설계하고 지속적으로 개선하기 위해 지역적으로 일하고 보건 직업 교육의 형평성을 국가 인력 우선 과제로 만들기 위해 함께 노력함으로써 평가에서 형평성의 사악한 문제에 대한 해결책을 찾기 시작할 수 있다.

We have surveyed issues of equity in assessment, distinguishing various forms of assessment and various aspects of inequity. Informed by the evidence base on inequity in assessment, this manuscript puts forth a framework for optimizing assessment to achieve equity. Key issues underlying debates on equity serve as the agenda for ongoing needed research and practice improvement to achieve equity in assessment that will ultimately improve patients’ health. Individual medical schools can begin seeking solutions to the wicked problem of equity in assessment by working locally to design and continuously improve our learning and patient care ecosystems and by joining together to make equity in health professions education a national workforce priority.

 

List 1 평가의 형평성 달성 : Shingo의 조직 수월성 모델을 기반으로 한 모델
List 1 Achieving Equity in Assessment: A Model Based on the Shingo Model of Organizational Excellence

지침:
Guiding principles:

  • [의학교육의 목적]은 점점 더 다양해지는 환자와 지역사회에, 고품질의 안전하고 공정한 치료를 제공할 수 있고, 그렇게 하는데 헌신할 의사 인력을 준비하는 것입니다.
  • [의학교육 평가의 목적]은 학교나 연수 프로그램을 졸업한 모든 사람이 모든 환자에게 우수하고 공평한 치료를 제공하는 데 필요한 역량을 갖추도록 함으로써 의료교육이 우리의 사회적 계약을 이행하도록 보장하는 것이다.
  • The purpose of medical education is to prepare a physician workforce capable of and committed to providing high-quality, safe, and equitable care to our increasingly diverse patients and communities.
  • The purpose of assessment in medical education is to ensure that medical education fulfills our social contract by ensuring that all who graduate from a school or training program have the competencies needed to provide excellent and equitable care to all patients.

평가 가치의 형평성에 전념하는 문화:
A culture committed to equity in assessment values:

  • 다양성, 형평성, 포함Diversity, equity, and inclusion: 고품질 의료 시스템의 원동력
  • 형평성: 고기능 학습 및 평가 시스템의 필수 특성
  • 모든 개인과 팀의 수월성: 고품질의 환자 치료를 제공하는 데 필요한 종합적인 역량 집합의 달성에 따라 정의됨
  • 성장 및 발전에 대한 헌신: 경력 전반에 걸쳐 지속적으로 우수성을 유지하기 위한 필수 요건입니다
  • Diversity, equity, and inclusion as drivers of a high-quality health care system.
  • Equity as an essential characteristic of high-functioning learning and assessment systems.
  • Excellence in all individuals and teams as defined by achievements in the comprehensive set of competencies that are required to provide high-quality patient care.
  • A commitment to growth and improvement as an essential requirement for sustained excellence over the course of a career.

공평한 학습 및 평가 시스템 및 프로그램:
Equitable systems and programs of learning and assessment:

  • 평가 및 학습에 대한 현대 이론을 사용하여, 공정성의 증거를 중앙에서 설계하고 지속적으로 모니터링합니다.
  • Are centrally designed and continuously monitored for evidence of equity, using contemporary theories of assessment and learning.

 

  • [학습을 위한 평가]에서, [개인과 그룹이 무의식적 편향의 영향을 완화]하여, [내재적 형평성]을 최적화하는 구조와 프로세스에 초점을 맞춥니다.
    • 명시적 기준: 규범적normative 기준에 의존하지 않고 성과를 평가할 수 있도록
    • 다양한 평가 전략 및 측정 기준: 의사가 우수한 치료를 제공하는 데 필요한 여러 역량을 효과적으로 평가할 수 있도록
    • 학습자와 학습자를 평가하는 모든 감독자의 준비: 평가 절차와 원하는 역량 달성 기준을 명확하게 이해할 수 있도록 
    • [모든 학생이 종합적이고 높은 수준의 결정을 내리기 전에 빈번하고, 실행 가능하고, 형성적인 평가]를 받도록 보장하는 전략
  • Focus on structures and processes that optimize intrinsic equity by mitigating the impact of unconscious bias by individuals and groups in assessment for learning, including:
    • explicit criteria by which achievements are assessed, rather than relying on normative criteria
    • a diversity of assessment strategies and metrics to validly assess the breadth of competencies needed for physicians to provide excellent care
    • preparation of all supervisors who assess learners and the learners themselves to have a clear understanding of assessment procedures and desired competency attainment criteria
    • strategies that ensure that all students receive frequent, actionable, formative assessment before summative, high-stakes decisions are made
  • [학습의 평가]에 있어, [개인과 집단이 무의식적인 편견이 미치는 영향을 완화]하여, [내재적 형평성]을 최적화하는 구조와 프로세스에 초점을 맞춥니다.
    • [역량 달성에 대한 종합적 결정]은 [다양한 환자와 함께, 광범위한 임상적 맥락에서, 학습자와 상호 작용하는 여러 관찰자로부터 수집된 증거를 기반]으로 한다.
    • [역량 달성에 대한 종합적 결정]은 [다양한 개인, 평가 절차 및 데이터 분석 전문가로 구성된 위원회]에 의해 이루어지며, 위원회는 [무의식적인 편견과 고장난 집단 사고의 영향]에 대해 교육받는다.
  • Focus on structures and processes that optimize intrinsic equity by mitigating the impact of unconscious bias by individuals and groups in assessment of learning, including:
    • Summative decisions about competency achievement are based on evidence collected from multiple observers who interact with the learner in a wide range of clinical contexts, with a diversity of patients.
    • Summative decisions about competency achievement are made by committees of diverse individuals, expert in assessment procedures and data analysis, and educated about the ramifications of unconscious bias and dysfunctional group think.
  • [맥락적 형평성]을 최적화하는 구조 및 프로세스에 초점을 맞춥니다.
    • 교육과정 환경: [모든 학습자]가 [다양한 복잡성의 임상 상황에 참여]하여, [성과를 극대화할 수 있는 기회]를 최적화
    • 학습 환경: 편향, 고정관념 위협, 측정되지 않은 작업량 등 [불평등한 평가에 기여하는 다양한 불평등한 학습의 원인]을 해결하도록 설계되고 모니터링
    • 교수 업무 할당 및 승진 기준: 학습을 위한 평가를 최적화하는 데 필요한 시간과 노력을  할애할 수 있도록 하고, 인센티브를 제공
  • Focus on structures and processes that optimize contextual equity, including:
    • Curricular environments that afford all learners with the opportunity to learn while participating in clinical situations of varying complexity to optimize their chance of maximizing their achievements.
    • Learning environments designed and monitored to address bias, stereotype threat, unmeasured workload, and other causes of inequitable learning that contribute to inequitable assessment.
    • Faculty work assignments and promotion criteria that enable and incentivize them to dedicate the time and effort needed to optimize assessment for learning.
  • [도구적 형평성]과 [평가 결과의 형평성]을 지원하는 구조와 프로세스를 옹호합니다
  • Advocate for structures and processes that support instrumental equity and equity in assessment outcomes.

평가에서 형평성을 촉진하는 [도구]는 다음과 같다.
Tools that facilitate equity in assessment include:

  • 준거-기반 역량 기술
  • [평가 전략]: [수집이나 해석의 용이성]이 아니라, [의사로서의 미래 성과를 예측하는 능력]에 따라 선택된 정성적 및 정량적 데이터를 통합
  • [교수 개발 및 적시 도구]: 교수진과 학습자가 학습 및 평가에서 역할과 기대를 이해하고 수용하도록 지원
  • [워크플로우, 작업 할당, 테르콜로지 전략]: 감독자가 (환자와 함께, 라운드 중, 차트 검토 중) 학습자 성과에 대한 직접적인 관찰을 사용하여 증거를 수집하고, 주어진 학습자의 역량에 대한 형성적 판단을 내릴 수 있도록 지원하고 보상
  • [코칭 전략]: 피드백에 대한 학습자의 이해 및 피드백-기반 행동 능력을 향상시키기 위함
  • [학습자 진행 상황에 대한 데이터를 수집하고 표시하기 위한 전략 및 테크놀로지]: 학습자 및 코칭스태프와 감독자가 사용할 수 있도록 
  • Criterion-based competency descriptions.
  • Assessment strategies that incorporate qualitative and quantitative data selected for their ability to predict future performance as a physician, rather than on ease of collection or interpretation.
  • Faculty development and just-in-time tools that allow faculty and learners to understand and embrace roles and expectations in learning and assessment.
  • Workflow, work assignment, and technologic strategies that support and reward supervisors to use direct observation of learner performance (with patients, on rounds, during chart review) to gather evidence and make formative judgments about competency of a given learner.
  • Coaching strategies to enhance a learner’s ability to understand and act upon feedback.
  • Strategies and technologies to collect and display data on learner progress for use by learners and their coaches and supervisors.

평가에서 [형평성을 나타내는 결과]는 다음과 같은 증거를 포함한다.
Results that indicate equity in assessment include evidence that:

프로세스 표시기:Process indicators:

  • [평가 절차]는 [향후 성과 예측에 가지는 편익과 한계에 대한 명확히 이해]를 바탕으로 [완전히 정렬]된다.
  • [평가 전략]은 모든 학습자에게 교육 및 직업 기회를 증가시키기 위해 사용되며, 엄격함이 의심되지 않을 때에만 이러한 기회를 예방하는 기능을 한다.
  • [평가 데이터]는 목적대로 사용되며 관련성이 입증되지 않은 상황에서는 사용되지 않습니다.
  • [프로그램]은 평가 프로그램의 타당성, 공정성, 형평성 문제를 [정기적으로 조사]하고, 특정 그룹에 부당하게 불이익을 주는 [모집단 차이를 최소화]하기 위해 노력한다.
  • Assessment procedures are fully aligned with a clear understanding of their benefits and limitations in predicting future performance.
  • Assessment strategies are employed to increase educational and career opportunities for all learners and only function to prevent these opportunities when their rigor is unquestioned.
  • Assessment data are used as intended and not for situations for which their relevance is unproven.
  • Programs routinely investigate issues of validity, fairness, and equity in their programs of assessment and work to minimize population group differences that unfairly disadvantage any particular group.

결과 표시기:Outcome indicators:

  • 의학계에서 [대표성이 낮은 집단]에 대한 [교육 및 직업 기회의 집단 차이]가 제거된다
  • Population group differences in educational and career opportunities for groups underrepresented in medicine are eliminated.

 


 

 

 

Acad Med. 2020 Dec;95(12S Addressing Harmful Bias and Eliminating Discrimination in Health Professions Learning Environments):S98-S108. doi: 10.1097/ACM.0000000000003717.

 

Medical Education's Wicked Problem: Achieving Equity in Assessment for Medical Learners

Affiliations collapse

Affiliations

1C.R. Lucey is executive vice dean/vice dean for education and professor of medicine, University of California, San Francisco, School of Medicine, San Francisco, California.

2K.E. Hauer is professor of medicine, University of California, San Francisco, School of Medicine, San Francisco, California.

3D. Boatright is assistant professor of emergency medicine, Yale University School of Medicine, New Haven, Connecticut.

4A. Fernandez is professor of medicine, University of California, San Francisco, School of Medicine, San Francisco, California.

PMID: 32889943

DOI: 10.1097/ACM.0000000000003717

 

Abstract

Despite a lack of intent to discriminate, physicians educated in U.S. medical schools and residency programs often take actions that systematically disadvantage minority patients. The approach to assessment of learner performance in medical education can similarly disadvantage minority learners. The adoption of holistic admissions strategies to increase the diversity of medical training programs has not been accompanied by increases in diversity in honor societies, selective residency programs, medical specialties, and medical school faculty. These observations prompt justified concerns about structural and interpersonal bias in assessment. This manuscript characterizes equity in assessment as a "wicked problem" with inherent conflicts, uncertainty, dynamic tensions, and susceptibility to contextual influences. The authors review the underlying individual and structural causes of inequity in assessment. Using an organizational model, they propose strategies to achieve equity in assessment and drive institutional and systemic improvement based on clearly articulated principles. This model addresses the culture, systems, and assessment tools necessary to achieve equitable results that reflect stated principles. Three components of equity in assessment that can be measured and evaluated to confirm success include intrinsic equity (selection and design of assessment tools), contextual equity (the learning environment in which assessment occurs), and instrumental equity (uses of assessment data for learner advancement and selection and program evaluation). A research agenda to address these challenges and controversies and demonstrate reduction in bias and discrimination in medical education is presented.

 

임상추론 평가방법: 스코핑 리뷰와 실용적 가이드(Acad Med, 2019)
Clinical Reasoning Assessment Methods: A Scoping Review and Practical Guidance

Michelle Daniel, MD, MHPE, Joseph Rencic, MD, Steven J. Durning, MD, PhD, Eric Holmboe, MD, Sally A. Santen, MD, PhD, Valerie Lang, MD, MHPE, Temple Ratcliffe, MD, David Gordon, MD, Brian Heist, MD, MSc, Stuart Lubarsky, MD, MHPE, Carlos A. Estrada, MD, MS, Tiffany Ballard, MD, Anthony R. Artino Jr, PhD, Ana Sergio Da Silva, PhD, Timothy Cleary, PhD, Jennifer Stojan, MD, MHPE, and Larry D. Gruppen, PhD 

 

 

임상적 추론의 정의는 매우 다양하다.1 이 논문의 목적상 [임상 추론]은 '임상 의사가 환자를 진단하고 치료하기 위해 데이터를 관찰, 수집 및 해석하는 기술, 프로세스 또는 결과로 정의]된다. 임상 추론은 맥락적 요소와 상호작용하는 [의식적 및 무의식적 인지 작업]을 모두 수반한다. 맥락적 요인에는 [환자의 고유한 상황과 선호도, 그리고 진료 환경의 특성이 포함]되며 이 밖에도 많은 것들이 있다. 임상 추론의 여러 구성 요소를 식별할 수 있다1:

  • 정보 수집, 
  • 가설 생성, 
  • 문제 표현 형성, 
  • 감별 진단 생성,
  • 우선적 또는 작업 진단 선택,
  • 진단 정당성 제공,
  • 관리 또는 치료 계획 개발.

Definitions of clinical reasoning vary widely.1 For the purposes of this paper, clinical reasoning is defined as a skill, process, or outcome wherein clinicians observe, collect, and interpret data to diagnose and treat patients.2,3 Clinical reasoning entails both conscious and unconscious cognitive operations interacting with contextual factors.4,5 Contextual factors include, but are not limited to, the patient’s unique circumstances and preferences and the characteristics of the practice environment. Multiple components of clinical reasoning can be identified1:

  • information gathering,
  • hypothesis generation,
  • forming a problem representation,
  • generating a differential diagnosis,
  • selecting a leading or working diagnosis,
  • providing a diagnostic justification, and
  • developing a management or treatment plan.6 

다양한 분야(예: 인지 심리학, 사회학, 교육)의 많은 이론(예: 스크립트, 이중 과정 및 인지 부하 이론)이 임상 추론에 대한 연구를 제공한다. 이러한 임상 추론의 정의와 이러한 다중 이론은 현재 연구의 기초를 제공한다.

A number of theories (e.g., script, dual process, and cognitive load theories) from diverse fields (e.g., cognitive psychology, sociology, education) inform research on clinical reasoning.7,8 This definition of clinical reasoning and these multiple theories provide the foundation for the current work.

효과적인 임상 추론은 임상 역량의 핵심이다. 대학원 의학 교육 인증 위원회, 9개의 CanMED 프레임워크 및 유럽의 조정 프로젝트(의학)는 모두 임상 추론을 핵심 역량으로 설명한다. 의료 교육 연속체에 걸쳐 임상 역량(임상 추론 포함)의 개발을 보장하려면 평가에 대한 증거 기반 접근법이 필요하다. 현재 임상추론에 대한 광범위한 평가가 있으며, 이러한 도구의 기반이 되는 문헌은 광범위하게 분산되어 있으며, 다양한 분야와 여러 의학 전문 분야를 넘나들고 있어서 [특정한 목표, 요구 및 자원에 맞는 평가를 선택 및 구현]하려는 교수자를 어렵게 만든다. 또한 여러 평가들이 서로 다른 맥락(예: 직장 기반 및 비직장 기반 환경)에서 사용하도록 설계된다. 임상추론 평가방법은 수와 다양성이 많아서 목적에 적합한 평가를 선택하는 데 어려움이 있고, 임상추론 평가가 진보하려면 현재 근거의 통합이 필요하다.

Effective clinical reasoning is central to clinical competence. The Accreditation Council for Graduate Medical Education,9 the CanMEDS framework,10 and the Tuning Project (Medicine) in Europe11 all describe clinical reasoning as a core competency. Ensuring the development of clinical competence (including clinical reasoning) across the medical education continuum requires an evidence-based approach to assessment. There is currently a wide array of clinical reasoning assessments, and the literature on which these tools are based is widely dispersed, crossing different fields and multiple medical specialties, which presents a challenge for medical educators attempting to select and implement assessments aligned with their particular goals, needs, and resources. These assessments are often designed for use in different contexts (e.g., workplace- and non-workplace-based environments).12 The sheer number and diversity of clinical reasoning assessment methods create challenges for selecting assessments fit for the purpose, so a synthesis of the current evidence is needed to advance assessment practices for this core competency.

우리의 목표는 의료 교육자에게 참고가 되는 평가 방법의 실용적인 개요를 만드는 것이었다. 임상 추리 평가 문헌의 풍부함과 복잡성을 고려하여 다음 질문을 탐구하기 위해 범위 검토를 수행하기로 결정했다. 어떤 임상적 추론 평가 방법을 사용할 수 있습니까? 이러한 평가 방법의 정의 기능은 무엇이며, 일반적으로 어떻게 사용됩니까? 각 방법에 대한 타당성 고려사항(내용, 대응 프로세스, 내부 구조, 다른 변수와의 관계, 임상 실무 성과에 대한 결과 또는 결과)은 무엇입니까? 각 방법의 실현 가능성 문제, 장점 및 단점은 무엇입니까? 각 방법의 상대적 강점과 약점을 임상 추론 평가 프로그램을 구축하는 데 어떻게 사용할 수 있는가?

Our aim was to create a practical compendium of assessment methods to serve as a reference for medical educators. Given the richness and complexity of the clinical reasoning assessment literature, we chose to perform a scoping review to explore the following questions: What clinical reasoning assessment methods are available? What are the defining features of these assessment methods, and how are they typically used? What are the validity considerations (content, response process, internal structure, relationships to other variables, and consequences or outcomes on clinical practice performance) for each method? What are the feasibility issues, advantages, and disadvantages of each method? How might the relative strengths and weaknesses of each method be used to construct a clinical reasoning assessment program?

방법
Method

방법론 검토
Review methodology

우리는 이 검토를 수행함에 있어 구성주의적 연구 패러다임을 채택했다. 우리는 우리의 질문이 탐색적이었고 예비 검색에서 복잡하고 이질적인 문학의 본체가 밝혀졌기 때문에 scoping methodology 을 선택했다. 우리는 임상 추리 평가 방법의 광범위한 분야를 설명하기를 원했지만, 의학 교육자에 대한 관련성을 보장하기 위해 실용적인 적용에 초점을 맞추고 싶었다. 우리는 가장 일반적으로 사용되는 방법에 대해 보고하지만, 모든 것을 망라하려고 하지는 않습니다. 이 검토는 STORES(Structured Approach to Reporting in Healthcare Education of Previdence Compositation) 스테이트먼트에 따라 제시된다. 
We adopted a constructivist research paradigm in conducting this review. We chose a scoping methodology because our questions were exploratory and because preliminary searches had revealed a complex and heterogeneous body of literature.13 We wanted to describe the broad field of clinical reasoning assessment methods,14 yet remain focused on practical applications to ensure relevance for medical educators. We report on the most commonly used methods, but we do not seek to be exhaustive. This review is presented in accordance with the STORIES (Structured Approach to the Reporting in Healthcare Education of Evidence Synthesis) statement.15

검색 전략
Search strategy

초기 검색 및 기사 선택 프로세스에서 확립된 PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses) 가이드라인을 따랐습니다. 경험이 풍부한 연구 사서가 검색 전략을 설계하는 데 도움을 주었습니다(보조 디지털 부록 1 참조). 임상 추론을 위한 수많은 동의어는 잘 알려진 임상 추리 평가 방법뿐만 아니라 광범위한 평가 용어와 결합되었다. 검색일로부터 2016년 2월 29일까지 Ovid MEDLINE, CINAHL, ERIC, PsycINFO, Scopus, Google Scholar, New York Academy of Medicine Grey Literature Report에서 검색을 실행했습니다. 검색된 인용문은 체계적인 검토를 수행하기 위한 온라인 데이터 관리 시스템인 DistillerSR(캐나다 온타리오주 오타와)에 업로드되었습니다.

We followed established PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) guidelines16 for our initial search and article selection process. An experienced research librarian helped design the search strategy (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A631). Numerous synonyms for clinical reasoning were combined with a broad range of assessment terms, as well as well-known clinical reasoning assessment methods. We ran the search in Ovid MEDLINE, CINAHL, ERIC, PsycINFO, Scopus, Google Scholar, and the New York Academy of Medicine Grey Literature Report from each database’s inception through February 29, 2016, the date of our search. Retrieved citations were uploaded in DistillerSR (Evidence Partners, Ottawa, Ontario, Canada), an online data management system for performing systematic reviews.

기사 심사 및 리뷰
Screening and review of articles

임상 추론 평가 문헌의 초기 탐구를 위한 광범위한 포함 기준에서 시작했다.

  • (1) 훈련 또는 실습의 모든 단계에서 건강 전문직(예: 의학, 간호, 치과, 물리 또는 직업 치료), 
  • (2) 모든 연구 설계 유형, 
  • (3) 임상 추론 평가 방법(또는 도구)을 명시적으로 연구한 모든 기사 (또는 동의어(예: 임상, 진단, 치료, 예후 의사결정 또는 문제 해결). 보충 디지털 부록 1 참조).

We began with broad inclusion criteria for our initial exploration of the clinical reasoning assessment literature:

  • (1) any health profession (e.g., medicine, nursing, dentistry, physical or occupational therapy) at any stage of training or practice;
  • (2) all study design types; and
  • (3) any article that explicitly studied a method (or tool) of clinical reasoning assessment (or synonymous terms—e.g., clinical, diagnostic, therapeutic, or prognostic decision making or problem solving; see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A631).

영어로 된 기사가 아닌 경우, 의사결정을 임상 추론의 더 큰 인지 과정 대신 특정 임상 문제(예: 심방 세동의 경우)에만 적용한 경우 또는 기사가 연구를 구성하지 않는 논문 또는 해설인 경우 기사는 제외되었다. 리뷰 기사는 데이터 추출에서 제외되었지만 눈덩이 확대를 통해 추가 기사를 식별하는 데 사용되었다. 최종 합성에 앞서, 우리는 의대생, 레지던트 또는 의사에 관한 연구에 초점을 맞추기로 결정했고, 검토를 위한 총 기사 수를 줄이고, 임상 추론에 초점을 맞추도록 다른 보건 직업에 대한 강조를 제거하기로 했다. (또한 비판적 사고와 같은 다른 건강 직업의 관련성이 있는 것이 아니라 별개의 구조에 대해서도 마찬가지입니다.)

Articles were excluded if they were not in English, if decision making was applied only to a specific clinical problem (e.g., a case of atrial fibrillation) instead of the larger cognitive processes of clinical reasoning, or if the article was an essay or commentary that did not constitute research. Review articles were excluded from data extraction but were used to identify additional articles via snowballing. Prior to the final synthesis, we decided to focus on medical student, resident, or physician studies and de-emphasized the other health professions to both reduce the total number of articles for review and ensure that the focus was on clinical reasoning (and not on related but distinct constructs in the other health professions, such as critical thinking).17

다양한 작가 조합이 여러 단계로 기사를 검토했다. 잠재적으로 관련된 제목과 요약은 작가 쌍에 의해 선별되었다. 전문 기사는 포함 및 제외 기준에 따라 다양한 작가 쌍에 의해 적격성을 평가받았다. 적격성 평가를 위한 전문 기사의 평가에 앞서, 우리는 우리 팀의 요약과 집합적 전문지식에 대한 예비 분석을 바탕으로 평가 방법별로 그것들을 분류했습니다. 우리는 염두에 두고 있었다.

  • 오래된 방법이 출판된 기사(예: 객관식 질문[MCQ])에 더 자주 표시될 수 있다.
  • 일반적인 교육 관행은 자주 작성되지 않을 수 있다(예: 구술 사례 프레젠테이션(OCP)).
  • 실현 가능성이 구현 및 사용에 영향을 미칠 수 있다(예: fMRI).

Different combinations of authors (M.D., J.R., S.J.D., E.H., S.A.S., V.L., T.R., D.G., B.H., S.L., C.A.E., T.B., A.R.A., A.S.D.S., T.C., J.S., L.D.G.) reviewed the articles in multiple stages. Potentially relevant titles and abstracts were screened by pairs of authors. Full-text articles were then assessed by different pairs of authors for eligibility based on the inclusion and exclusion criteria. Prior to the assessment of full-text articles for eligibility, we sorted them by assessment methods based on our preliminary analyses of the abstracts and the collective expertise of our team. We were mindful

  • that older methods may be more frequently represented in published articles (e.g., multiple-choice questions [MCQs]),
  • that common educational practices may not necessarily be written about often (e.g., oral case presentations [OCPs]), and
  • that feasibility may affect implementation and use (e.g., functional magnetic resonance imaging).

각 평가 방법은 해당 기사를 추가로 검토하고 합성한 두 명의 저자에게 할당되었다. 어느 단계에서든 의견 불일치는 논의를 통해 해결되었으며, 필요한 경우 제3의 저자가 참여하였다. 데이터 추출 수준에서 코헨 카파 통계량을 사용하여 기준 간 합의를 평가했다.

Each assessment method was assigned to a pair of authors who further reviewed and synthesized those articles. Disagreements at any stage were resolved through discussion to reach consensus, with involvement of a third author if needed. Interrater agreement was assessed using Cohen kappa statistic at the data extraction level.


데이터 추출 양식을 사용하여 다음을 포함한 평가 방법의 특성에 대한 정보를 수집했다.

  • 자극(예: 서면 Vignette, 표준화된 환자(SP), 실제 환자)
  • 응답 형식(예: 선택된 응답, 작성된 자유 텍스트, 성능)
  • 채점(예: 고정 답안, 체크리스트, 글로벌 등급 척도)
  • 일반적인 용도(예: 낮은, 중간, 높은 수준의 의사결정)

A data extraction form (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/A632) was used to capture information on the characteristics of assessment methods, including

  • the stimulus (e.g., written vignette, standardized patients [SPs], real patients);
  • response format (e.g., selected response, constructed free text, performance);
  • scoring (e.g., fixed answer, checklist, global rating scale); and
  • common uses (e.g., low-, medium-, or high-stakes decisions).

이 양식은 도구의 타당성 및 타당성뿐만 아니라 방법과 관련된 주제(예: 맥락의 영향)에 관한 정보도 포착했다. 이 검토의 목적상, 우리는 타당성을 복수의 근거 소스(예: 내용, 대응 프로세스)가 있는 통합된 구성으로 보았다.18 이것은 scoping review였기 때문에 article의 품질은 공식적으로 평가되지 않았다. 추출은 평가 방법에 대한 모든 기사를 완전히 검토하거나 새로운 평가 통찰력을 제공하지 않을 때까지 진행되었습니다.

The form also captured information regarding a tool’s feasibility and validity, as well as any themes (e.g., the influence of context) related to the method. For the purposes of this review, we viewed validity as a unified construct with multiple sources of evidence (e.g., content, response process).18 Because this was a scoping review, the quality of articles was not formally assessed. Extraction proceeded until all articles for an assessment method had been fully reviewed or no new assessment insights were forthcoming.

Data 합성
Data synthesis

추출된 데이터를 사용하여 각 평가 방법을 요약하고 일반적인 자극, 대응 형식, 점수, 일반적인 용도, 타당성 고려 사항, 타당성 문제, 장점 및 단점을 설명하는 설명적 부록을 구성했다. 타당성 고려사항은 교육 및 심리 테스트 표준에 설명된 메시의 5개 영역에 따라 제시된다. 이 부록에는 텍스트를 뒷받침하는 참고문헌이 몇 가지 나열되어 있지만, 일부 방법에서는 60개가 넘는 기사가 있었기 때문에 검토한 기사 전체 목록은 포함되어 있지 않습니다. 일부 경우, 우리는 이러한 부록과 결과의 핵심 사항을 뒷받침하기 위해 (검토에 포함된 목록 외의) 추가적인 seminal references 자료를 사용했다. 이러한 참고 자료는 포함 기준을 충족하지 못했기 때문에 검토에 포함되지 않았다.
We used the extracted data to construct descriptive appendixes that summarize each assessment method, describing common stimuli, response formats, scoring, typical uses, validity considerations, feasibility issues, advantages, and disadvantages. Validity considerations are presented according to Messick’s five domains as described in Standards for Educational and Psychological Testing.19 These appendixes list some references to support the text, but they do not include the full list of the articles reviewed because, for some methods, there were over 60 articles. In some cases, we used additional seminal references (outside of those included in the review) to support key points in these appendixes and in the Results below; these references were not included in the review because they did not meet the inclusion criteria.

검토 과정에서 특정 평가 방법이 임상 추론의 다른 구성 요소를 측정하는 데 다른 방법보다 더 적합하다는 것이 명백해졌다(위 참조). [임상추론 평가 방법 선택을 위한 실용적 가이드 제작]을 목표로 했기 때문에, 우리는 집단적 판단을 사용하여, 임상추론의 다양한 구성 요소를 측정할 수 있는 평가 방법을 식별했다. 

Over the course of the review, it became apparent that certain assessment methods were better suited than others to measure different components of clinical reasoning (see above). Because we aimed to produce a practical guide for medical educators to select clinical reasoning assessment methods, we used our collective judgments to identify assessment methods more or less capable of measuring the different components of clinical reasoning.

우선, 각 컴포넌트의 작업 정의에 합의했습니다(표 1). 다음으로 Qualtrics(2018년 버전, Qualtrics, Provo, Utah, Provo)를 통해 전체 작성자 그룹에 설문조사를 보내 각 평가 방법을 다양한 구성 요소를 평가할 수 있는 능력 측면에서 평가하도록 요청했습니다. (0 = 주소 미지정, 1 = 2차 또는 주변기기, 2 = 1차 초점, NA = 응답 불가). 결과의 평균을 산출하여 다음과 같은 척도로 보고했습니다. 0.0~0.5 = 불량, 0.6~1.0 = 평균, 1.1~1.5 = 양호, 1.6~2.0 = 매우 양호.

First, we agreed on working definitions for each of the different components (Table 1). Next, we sent a survey via Qualtrics (version from 2018, Qualtrics, Provo, Utah) to the full author group, asking them to rate each assessment method in terms of its ability to assess the different components (0 = not addressed, 1 = secondary or peripheral, 2 = primary focus, NA = cannot answer). We averaged the results and reported them on the following scale: 0.0–0.5 = poor, 0.6–1.0 = average, 1.1–1.5 = good, and 1.6–2.0 = very good.

 


표 1 임상 추론의 다양한 구성 요소에 대한 작업 정의
Table 1 Working Definitions for the Different Components of Clinical Reasoning

정보 수집 Information gathering72,73

  • 가설을 생성하거나 구체화하는 데 필요한 데이터를 얻는 과정입니다. 이 과정은 일반적으로 기록 작성, 물리적 수행, 실험실 또는 방사선 데이터 획득, 의료 기록 검토 등을 포함하는 능동적active 프로세스이지만, (관찰을 통한 것처럼) 암묵적일 수도 있습니다. 수집할 정보의 선택은 질병의 지식 표현(예: 스크립트, 스키마)에 의해 결정됩니다.
  • The process of acquiring the data needed to generate or refine hypotheses. This is usually an active process that includes taking a history, performing a physical, acquiring lab or radiographic data, reviewing the medical record, etc., but may be implicit (through observation) as well. The selection of information to gather is driven by knowledge representations of disease (i.e., scripts, schema).

가설 생성 Hypothesis generation74,75

  • 의사가 환자의 임상 소견을 설명할 수 있는 질병을 찾는 초기 비분석적 또는 분석적 과정입니다. 가설 생성은 정보 수집을 피드백하는 반복 프로세스에서 질병의 지식 표현을 활성화하는 것을 포함한다(예: 가설 생성은 더 많은 정보 수집으로 이어지고, 더 많은 가설 생성 및/또는 개선으로 이어진다).
  • An early nonanalytic or analytic process by which a physician tries to find diseases that can explain a patient’s clinical findings. Hypothesis generation involves activation of knowledge representations of disease in an iterative process that feeds back on information gathering and vice versa (e.g., hypothesis generation leads to more information gathering, which leads to more hypothesis generation and/or refinement).

문제 표현 Problem representation74,76

  • [의미적 한정자]와 [주요 발견]을 포함하는 요약으로 전달될 수 있는, 사례의 모든 관련 측면(환자의 임상 소견, 생체 심리학적 차원 등)의 역동적 정신적 표현.
  • A dynamic mental representation of all the relevant aspects of the case (including the patient’s clinical findings, biopsychosocial dimensions, etc.) that can be communicated in a summary that includes semantic qualifiers and key findings.

감별 진단 Differential diagnosis77,78

  • 문제 표현의 최선의 요약 범주를 나타내는 진단 가설의 목록(참고: 전공이 달라지면 감별진단의 우선 순위가 달라질 수 있다. 예를 들어, EM에서는 생명을 위협하는 질병이 먼저 나열되는 경우가 많은 반면 IM에서는 일반적으로 가장 가능성이 높은 질병이 먼저 나열된다.) [자신감의 강도]와 [표현에 대한 증거가 변화함]에 따라 우선적 진단leading diagnosis이 나타난다.
  • A list of diagnostic hypotheses that represent the best summary categorizations of the problem representation (Note: Different specialties may have different priorities when it comes to ordering the differential; e.g., in EM, life-threatening diseases are often listed first, whereas in IM, the most likely diseases are usually listed first). As the strength of confidence and evidence for these representations change, a leading diagnosis emerges.

선행 진단 또는 실제 진단 Leading or working diagnosis79

  • 비록 확정적이지 않더라도, 추가 검사를 진행하거나 치료를 시작하기 위해, 특정 질병일 확률이 의사 자신의 임계값을 초과한 진단입니다
  • A diagnosis for which a physician’s probability of a given disease has crossed his or her threshold to pursue additional testing or to initiate treatment, even if the diagnosis is not definitive.

진단의 정당성 Diagnostic justification77,80

  • 정보 수집의 증거(핵심 임상 소견)를 사용하여, 가능한 한 하나 이상의 진단을 선택하고, 다른 가능한 진단을 비교 및 대조하면서 그 선택을 옹호하려는 시도. 정당화는 사회적으로 필요할 때 의사소통(구술 또는 서면)을 수반하는 경우가 많으며, 선행 임상 추론 과정의 일부가 아닐 수도 있습니다.
  • The attempt to use the evidence (key clinical findings) from information gathering to choose one or more diagnoses as most likely and to defend that choice, comparing and contrasting other possible diagnoses. Justification often involves communication (orally or in writing) when socially required and may not be part of the a priori clinical reasoning process.

관리 및 치료 
Management and treatment79,81

  • 임상추론 뒤에 따라오는 행동으로서, 예측, 관리, 치료, 예방 전략, 증상완화(삶의 질 향상 포함) 및 그러한 행동의 정당화를 포함한다.
  • The actions that follow the clinical reasoning process, including prognostication, management, treatment, prevention strategies, and palliation of symptoms (including improvement of quality of life) and justification for such actions.

 

결과.
Results

초기 데이터베이스 검색과 눈덩이 확장으로 14,709개의 레코드가 생성되었습니다. 중복으로 1,849장을 삭제하고, 12,860장의 레코드는 제목과 추상별로 심사했습니다. 이 심사 후, 11,421개의 기사는 임상 추론의 평가와 관련이 없다는 이유로 제외되었다. 나머지 1,439개 기사는 포함 및 제외 기준에 따라 전문 평가를 받았다. 이 단계에서 901개 기사는 분석에서 제외되었으며, 주된 이유는 임상 추론 평가 방법을 명시적으로 연구하지 않았기 때문이다. 결국, 검토 대상에는 538개 조항(1966년부터 2016년까지)이 포함되었다(그림 1 및 보충 디지털 부록 3 참조). 이 기사들 중 161개는 다른 건강 직업에 초점을 맞췄다. 최종 종합에서는 의대생, 레지던트, 의사 관련 기사 377건만을 중점적으로 다루었다. 이 방법에 대해 계산된 측정기 간 합치도 0.83에서 0.86 사이의 범위에서 높았다.

The initial database search and snowballing yielded 14,709 records. We removed 1,849 as duplicates, leaving 12,860 records to be screened by title and abstract. After this screening, 11,421 articles were excluded because they did not pertain to the assessment of clinical reasoning. The 1,439 remaining articles underwent full-text evaluation based on inclusion and exclusion criteria. At this stage, 901 articles were excluded from the analysis, with the main reason being that they did not explicitly study a clinical reasoning assessment method. In the end, 538 articles (from 1966 to 2016) were included in the review (see Figure 1 and Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/A633). Of these articles, 161 focused on other health professions. In the final synthesis, we focused exclusively on the 377 articles related to medical students, residents, and physicians. The interrater agreement calculated for the methods was high, ranging from 0.83 to 0.86.

 

포함된 기사에는 임상 전 의대생부터 임상 의대생, 레지던트 및 개업의에 이르기까지 광범위한 학습자가 포함되었습니다. 기사에 실린 작품들은 많은 다른 나라들에서 나왔지만, 대부분은 미국, 유럽, 캐나다에서 왔다. 우리는 기사를 20개의 다른 평가 방법(실험적 또는 참신한 범주 및 19가지 방법)으로 묶었다.

  • 일부 방법에는 다수의 기사가 있었다(예: 스크립트 일치 테스트 및 기술 강화 시뮬레이션 각각 60개 이상).
  • 일부 방법들은 매우 적은 수의 논문만이 검색되었다(예: 임상 또는 종합 통합 퍼즐(CIPs)과 차트 자극 리콜(CSR)은 각각 3개였다.)

보충 디지털 부록 4는 공통 자극, 대응 형식, 점수 매기기, 일반적인 사용, 타당성 고려사항, 타당성 문제, 장점 및 단점을 포함하여 각 평가 방법을 요약하는 설명 부록을 제공하고 있으며, 이를 뒷받침하는 참고 자료를 제공한다.

The included articles encompassed a broad array of learners from preclinical medical students to clinical medical students, residents, and practicing physicians. The work in the articles came from many different countries; however, the majority came from the United States, Europe, and Canada. We clustered the articles into 20 different assessment methods (an experimental or novel category and 19 methods; see below).

  • Some methods had a large number of articles (e.g., script concordance testing and technology-enhanced simulation each had over 60).
  • Others had very small numbers of articles (e.g., clinical or comprehensive integrative puzzles [CIPs] and chart-stimulated recall [CSR] each had 3).

Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634) shows the descriptive appendixes we constructed that summarize each assessment method, including common stimuli, response formats, scoring, typical uses, validity considerations, feasibility issues, advantages, and disadvantages, as well as supporting references.

방법은 매우 이질적이었지만, 우리는 신뢰성의 연속체를 따라 세 가지 광범위한 범주를 식별했다. 

  • 비작업장 기반 평가(Non-WBAs),
  • 시뮬레이션 임상 환경 평가
  • 작업장 기반 평가(WBAs)

Although the methods were quite heterogeneous, we identified three broad categories, along a continuum of authenticity:

  • non-workplace-based assessments (non-WBAs),
  • assessments in simulated clinical environments, and
  • workplace-based assessments (WBAs).

우리는 이러한 범주에 예외가 있으며 일부 방법이 현실적으로 여러 범주에 배치될 수 있다는 것을 인식한다(예: 자체 조절 학습 미세 분석(SRL-M)). 독특하거나 참신하거나 탐색적인 평가는 실험적이거나 참신한 방법 그룹에 배치되었다. 중요한 방법들이 결국 이 작업 본체에서 나올 수 있지만, 이러한 방법들에 대해 상세히 보고하는 것은 가능하지 않았으며, 이러한 방법들은 보충 디지털 부록 4에서만 다루어진다.

We recognize that these categories have exceptions and that some methods could realistically be placed in multiple categories (e.g., self-regulated learning microanalysis [SRL-M]). Assessments that were unique, novel, or exploratory were placed into an experimental or novel methods group. Although important methods may ultimately emerge from this body of work, it was not feasible to report on all of these methods in depth, and they are only addressed in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634).

비WBA
Non-WBAs

우리는 주로 "교실" 평가 또는 비 WBA에 초점을 맞춘 10가지 방법을 식별했다.
We identified 10 methods that largely focused on “classroom” assessments or non-WBAs.

MCQ는 최대 5개의 잠재적 답변 또는 대안이 뒤따르는 임상적 답변으로 구성되며, 단일 최선의 답변, 대안 조합, 각 대안에 대한 참 또는 거짓 또는 매칭을 요구하도록 구성될 수 있다. 

  1. MCQs consist of a clinical vignette followed by up to five potential answers or alternatives and may be structured as to require a single best answer, a combination of alternatives, true or false for each alternative, or matching.20

확장 매칭 질문(EMQ)은 대안 목록에서 선택된 단일 최선의 답변과 함께 임상적 질문을 사용하는 MCQ와 유사하지만, 여러 질문에 적용되는 더 긴 잠재적 답변 목록(5개 이상)을 포함하고 있다. 

  1. Extended matching questions (EMQs) resemble MCQs in their use of a clinical vignette with a single best answer selected from a list of alternatives, but they contain longer lists of potential answers (more than five) that are applied to multiple questions.21,22

단답형 또는 장답형(메세지) 질문은 임상적 질문에 이어 몇 단어에서 여러 문장에 이르는 길이의 구성된 자유 텍스트 응답을 사용하여 하나 이상의 질문에 답하는 방법을 설명한다. 

  1. Short- or long-answer (essay) questions describe a method wherein a clinical vignette is followed by one or more questions answered using constructed free-text responses that range in length from a few words to several sentences.23,24

변형에세이문제(MEQ)은 사례의 일련 정보를 시간순으로 제공하는 방법입니다. 한 문항이 제시되면, 학습자는 작성된 자유 텍스트(에세이) 형식으로 결정을 문서화해야, 그 다음 문항을 볼 수 있습니다.

  1. Modified essay questions (MEQs) are a method wherein serial information is provided about a case chronologically.25,26 After each item, learners must document a decision in a constructed free-text (essay) format before they can view subsequent items.

환자 관리 문제(PMP)는 진단 및 관리에 특정 리소스를 사용할 수 있는 컨텍스트가 풍부한 임상 시나리오로 구성됩니다. 학습자는 조치를 위한 여러 대안 중에서 선택해야 하며, 사례를 계속 진행하면서 그러한 조치의 결과(예: 심전도[ECG] 결과)가 제공됩니다.

  1. Patient management problems (PMPs) consist of context-rich clinical scenarios, where specific resources are available for diagnosis and management.27,28 The learner must select among multiple alternatives for action, and the results of those actions are then provided (e.g., electrocardiogram [ECG] findings) as they continue working through the case.

주요 기능 검사(KFE)에는 임상 의사 결정의 중요한 단계에 초점을 맞춘 2~3개의 질문이 뒤따른다. 주요 특징은 사례별로 다르다(예: 벼락 두통은 지주막하 출혈 진단의 핵심 특징이다).

  1. Key feature examinations (KFEs) contain clinical vignettes followed by two to three questions focused on the critical steps in clinical decision making.29,30 Key features are case specific (e.g., a thunderclap headache is a key feature in the diagnosis of subarachnoid hemorrhage).

스크립트 일치 테스트(SCT)는 임상 추론 중에 새로운 정보가 처리되는 방법을 나타내도록 설계된 불확실성과 관련된 짧은 임상 시나리오로 구성된다. 학습자는 일련의 질문에 답해야 합니다(예: X를 고려하고 있었는데, Y를 찾은 경우, 이 답은 가능성이 더 높아지거나 가능성이 낮아지거나 변경되지 않습니다). 응답은 "전문가"의 참조 패널에서 얻은 응답과 비교되며, 이는 임상 상황에 따라 임상의의 응답의 가변성을 설명한다.

  1. Script concordance tests (SCTs) comprise short clinical scenarios associated with uncertainty that are designed to represent the way new information is processed during clinical reasoning.31,32 Learners must answer a series of questions (e.g., if you were thinking X and then you found Y, this answer would become more likely, less likely, or no change). Responses are compared with those acquired from a reference panel of “experts,” accounting for the variability of clinicians’ responses in different clinical situations.

CIP는 그리드 형태를 취하며, 종종 확장된 매칭 크로스워드 퍼즐과 유사합니다. 많은 발견이 컬럼(예: 이력, 물리, 심전도, 실험실, 병태생리학, 약리학)에 배치되고 관련 진단은 행에 배치된다(예: 심근경색, 폐색전증, 대동맥 박리). 학습자는 열 내 항목과 행 간 항목(소견에 가장 적합한 "일치" 선택)을 비교 및 대조하여 각 진단에 대한 기본적인 질병 스크립트를 작성하도록 요청받습니다.

  1. CIPs take the form of a grid, often analogized to an extended matching crossword puzzle.33,34 A number of findings are placed in columns (e.g., history, physical, ECG, labs, pathophysiology, pharmacology), and related diagnoses are placed in rows (e.g., myocardial infarction, pulmonary embolism, aortic dissection). The learner is asked to compare and contrast items within a column as well as across the rows (selecting the best “match” for the finding), building basic illness scripts for each diagnosis.

개념 지도는 학습자가 그래픽 일러스트를 작성함으로써 영역에 대한 지식 및 지식의 구성을 나타내는 개략적인 평가 방법입니다. 맵은 자유 형식 또는 위계형일 수 있으며, 개념과 개념 간의 관계를 모두 나타냅니다.

  1. Concept maps are a schematic assessment method wherein learners represent their knowledge of a domain, as well as the organization of that knowledge, by creating a graphical illustration.35,36 Maps may be free-form or hierarchical, outlining both concepts and the relationships between the concepts.

구술시험은 한 명 이상의 교직원이 임상적 추론 및 의사결정 능력 및 직업적 가치를 평가하기 위해, 대본이 없거나 반대본semiscripted 방식으로 실시하는 구두평가입니다. 

  1. Oral examinations are verbal assessments conducted by one or more faculty member in either an unscripted or semiscripted fashion to assess clinical reasoning and decision-making abilities, as well as professional values.37,38

영상, 비디오 및 기타 형식은 서면 시험 자료를 보완하거나 보완하는 데 사용될 수 있지만, 대부분의 비 WBA는 [서면] 임상 실험 자료, 또는 [시나리오]를 [자극]으로 사용한다. 비 WBA 방법 중 하나만 언어 자극(구강 검사)을 사용합니다.

The majority of non-WBAs use written clinical vignettes or scenarios as the stimuli, though images, videos, and other formats may be used to supplement or complement the written testing materials. Only one non-WBA method uses a verbal stimulus (oral examinations).

[응답 형식]은 주로 '쓰기written'이지만, 유형(예: 선택된 답변, 구성된 자유 텍스트)은 다양합니다.

The response formats are predominately written, though there is variability in type (e.g., selected answers, constructed free text).

[스코어링 프로세스]는 다양합니다. [단일 정답, 합계 방식]이 일반적입니다(MCQ, EMQ, PMP, KFE 등). 채점은 가중치 부여(즉, 특정 항목이 다른 항목보다 많이 반영됨) 또는 가중치 부여되지 않음(즉, 모든 항목이 동등하게 계산됨), 보상적(즉, 일부 백분율을 틀리고도 합격할 수 있음) 또는 비보상적(즉, 합격하려면 100% 점수가 필요함)될 수 있다. 문항별 채점 또는 전반적 등급 척도는 [단문형 또는 장문형 주관식 응답 및 MEQ]에 사용되며, [규범-기준 또는 준거-기준]으로 채점할 수 있다. CIP 그리드 및 컨셉 맵에는 보다 복잡한 스코어링 시스템이 있습니다. SCT 응답은 "골드 스탠다드"(즉, 전문가 패널의 응답)와 적합성을 비교하여, 그 응답을 선택한 전문가 패널의 비율에 따라 각 항목에 대해 부분적 또는 완전한 점수를 받는다.

Scoring processes vary. Aggregated, fixed-answer responses are common (e.g., MCQs, EMQs, PMPs, KFEs). Scoring can be weighted (i.e., certain items count more than others) or unweighted (i.e., all items count equally) and compensatory (i.e., can get some percentage wrong and still pass) or noncompensatory (i.e., a score of 100% is required to pass). Itemized and global rating scales are used for short- or long-answer constructed free-text responses and MEQs, and they can be norm- or criterion-referenced. CIP grids and concept maps have more complex scoring systems. SCT responses are compared for fit to a “gold standard” (i.e., the expert panel’s responses), and the examinee receives partial to full credit for each item depending on the proportion of the expert panel that chose that response.

중부담 및 고부담 시험에서는 여러 가지 비 WBA 방법이 사용된다(예: MCQ와 KFE는 종합 과정 종료 평가 및 의료 면허 검사에 일반적으로 사용된다). 다른 방법(예: CIP, 개념도)은 충분히 조사되지 않았으며 현재 형성적 평가 또는 연구에 가장 적합하다.

Several non-WBA methods are used for medium- to high-stakes examinations (e.g., MCQs and KFEs are commonly used for summative end-of-course assessments and medical licensing examinations). Other methods (e.g., CIPs, concept maps) are less well explored and are currently most suitable for formative assessments or research.


타당성 고려사항, 실현가능성 문제, 장점 및 단점은 각 방법마다 매우 고유하다. 보충 디지털 부록 4에서는 이러한 차이점에 대해 자세히 설명하지만, WBA 이외를 위한 몇 가지 테마는 여기에서 언급됩니다.

  • MCQ, EMQ 및 KFE는 가장 자주 사용되는 비WBA이며, 맥락 특이성을 최소화하는 광범위한 샘플링의 이점을 가지고 있습니다.
  • 이러한 방법은 높은 내적 일관성을 제공할 수 있는 최고의 기회를 제공하므로, 고부담 평가에 가장 큰 효용성이 있습니다.
  • 전문가 합의 및 블루프린트 덕분에 이러한 방법은 내용 타당성 증거가 강력할 수 있습니다. 이러한 방법은 내용의 통제와 일관성이라는 이점도 있으며, 각 문제에 대한 "정답"이 있다. "정답"이 있다는 것은 WBA에서 항상 가능한 것은 아닙니다.

Validity considerations, feasibility issues, advantages, and disadvantages are highly specific to each method. Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634) details these differences, but a few themes for non-WBAs warrant mention here.

  • MCQs, EMQs, and KFEs are the most frequently used non-WBAs, and they have the advantage of broad sampling that helps minimize context specificity.
  • They offer the best chance of high internal consistency and thus have the greatest utility for high-stakes assessments.
  • Content validity evidence for these methods can be strong because of expert consensus and blueprinting. These methods also offer the advantage of content control and consistency; there is a “right” answer to each problem, a feature not always possible in WBAs, which allows a measurement of accuracy.

 

또한, 모든 비 WBA 방법은 표준화된 일련의 문제에 걸쳐 학생을 평가할 수 있습니다. 이는 WBA에서는 불가능한 것입니다. 비 WBA 방법에 대한 가장 큰 타당성 문제는 [응답 프로세스 증거]에 있다. 많은 가능성에서 정답을 선택하거나 지식 조직의 그래픽 표현을 개발하거나 사전 정의된 목록에서 정보를 선택하는 것은 일반적으로 실제 임상 추론 활동을 대표하지 않습니다. 이러한 방법의 대부분은 [전체 태스크 평가]보다 [파트 태스크 평가]에 중점을 두고 있습니다. 
(즉, WBA 방법보다 임상 추론의 구성 요소를 더 적게 측정한다. 그림 1 참조). 

Further, all non-WBA methods allow students to be assessed across a standardized set of problems, something that is not possible in the workplace. The greatest validity challenge for non-WBA methods is in response process evidence. Selecting a correct answer from a number of possibilities, developing a graphic representation of knowledge organization, or even selecting information from a predefined list are not generally representative of authentic clinical reasoning activities in practice. Many of these methods emphasize part-task, rather than whole-task assessment (i.e., they measure fewer components of clinical reasoning than WBA methods; see Chart 1).

부분 과제 평가는 임상 실습으로 기술을 성공적으로 이전할 수 없기 때문에 임상 추론 역량을 결정하기 위해 비 WBA에 크게 의존하는 [방어가능성]에 의문이 있다. 이러한 방법 중 일부는 [내부 구조 증거]뿐만 아니라 [다른 변수와의 관계에 대한 증거]를 광범위하게 가지고 있지만, 다른 방법은 이러한 형태의 타당성 증거가 부족하다. 비 WBA는 [종종 면허, 인증 및 자격 증명 결정뿐만 아니라 총괄적 합격 또는 불합격 판단]을 내리는 데 사용되기 때문에 임상 실무 성과에 대한 결과 또는 결과는 중요하다. 학습에 대한 형성 평가는 비 WBA가 진행 테스트 및 임상 추론의 개발에 미치는 영향을 위해 사용될 때 발생할 수 있다(예: 인지 네트워크 개발에 도움이 되는 개념도 사용).

The defensibility of relying heavily on non-WBAs to determine clinical reasoning competence is questionable because part-task assessments cannot ensure successful transfer of skills into clinical practice. Several of these methods have extensive evidence of their relationship to other variables, as well as internal structure evidence, but others lack these forms of validity evidence. Consequences or outcomes on clinical practice performance are significant because non-WBAs are often used to make summative pass or fail judgments as well as licensing, certification, and credentialing decisions. Formative assessment for learning can occur when non-WBAs are used as progress tests and for the effect they have on the development of clinical reasoning (e.g., using concept maps to help develop cognitive networks).

시뮬레이션된 임상 환경에서의 평가
Assessments in simulated clinical environments

시뮬레이션된 임상 환경에서 발생하는 두 가지 방법이 확인되었다.
Two methods were identified that occur in simulated clinical environments.

객관적 구조화 임상검사(OSCE)는 임상추론을 포함하여 학생의 임상능력에 대한 성과 기반 평가입니다. OSCE는 종합 평가를 제공하기 위해 SP, 관찰자 등급, 서면 노트 및 기타 방법을 포함하는 다양한 임상 태스크를 수험자가 실행하는 여러 스테이션으로 구성됩니다.

  1. Objective structured clinical examinations (OSCEs) are performance-based evaluations of students’ clinical skills including, but not exclusively focused on, clinical reasoning.39,40 OSCEs comprise multiple stations where examinees execute different clinical tasks, incorporating SPs, observer ratings, written notes, and other methods, to provide a comprehensive assessment.

기술 강화 시뮬레이션은 학습자가 임상 치료를 모방하는 도구 또는 장치와 물리적으로 상호작용하는 다양한 평가 방법을 설명합니다. 여기에는 학습자 입력에 따라 변경될 수 있는 정적 고충실도 마네킹에서 가상 현실 환자 아바타까지 다양한 계측기가 포함될 수 있습니다.

  1. Technology-enhanced simulation describes a variety of assessment methods wherein learners physically interact with a tool or device that mimics clinical care.41,42 These can encompass a range of instruments from static high-fidelity mannequins to virtual reality patient avatars that can change in response to learner input.

 

  • 시뮬레이션 임상 환경에서 평가는 일반적으로 SP, 고충실도 마네킹 또는 가상 환자 아바타를 [자극]으로 사용한다.
  • OSCE 및 기술 강화 시뮬레이션의 [응답 형식]은 일반적으로 작업 수행 또는 구성된 구두 또는 서면 응답입니다.
  • [채점]은 종종 이분법적(즉, 완료 여부) 또는 행동적으로 고정된 항목별 체크리스트를 통해 이루어집니다. 글로벌 평가 척도가 흔하다.
  • [용도]를 보면, OSCE는 형성적 평가와 높은 단계의 종합 평가에 모두 사용됩니다. (예: 미국 의료 면허 시험 2단계 임상 기술 및 캐나다 의료 위원회 자격 시험 파트 2) 반면 기술 혁신 시뮬레이션은 주로 조형 평가에 사용된다.

 

  • Assessments in simulated clinical environments typically use SPs, high-fidelity mannequins, or virtual patient avatars as stimuli.
  • The response format for OSCEs and technology-enhanced simulations is usually task performance or constructed verbal or written responses.
  • Scoring is often via itemized checklists that may be dichotomous (i.e., done or not done) or behaviorally anchored. Global rating scales are also common.
  • OSCEs are used for both formative and high-stakes summative assessments (e.g., the United States Medical Licensing Examination Step 2 Clinical Skills and the Medical Council of Canada’s Qualifying Examination Part 2), whereas technology-enhanced simulations are mainly used for formative assessments.

 

타당성 고려 사항, 실현 가능성 문제, 장점 및 단점은 보충 디지털 부록 4에 자세히 설명되어 있지만, 몇 가지 주제는 강조되어야 합니다. [내용 타당성] 측면에서 이러한 방법을 블루프린트 할 수 있으며, 이럴 경우 임상 실무와의 연계가 합리적이다(이러한 평가의 authenticity는 대부분의 비 WBA보다는 높지만, 실제 WBA보다는 낮다). 고도로 구성되고 표준화된 재현 가능한 스테이션은 SP 및 평가자 교육에 주의를 기울여야 합니다. 이러한 표준화된 환경에서는 실제 임상 실습 중에 발생하는 평가보다 [맥락적 요인을 제어할 수 있는 능력]이 더 크다. 평가의 블루프린트는 내용특이성을 고려하여 합격에 필요한 필수적 기능feature을 식별해야 합니다(글로벌 평가 척도의 명확한 앵커 포함). 다른 평가 척도(즉, 비 WBA 및/또는 WBA)와의 성과 상관관계는 낮은 수준부터 중간 수준까지이며, 이는 형성 평가에는 허용되지만 높은 단계의 최종 결정에는 바람직하지 않다. 시뮬레이션 환경에서 평가는 여러 임상 추론 구성 요소를 측정하는 능력(그림 1)으로 평가되지만, 실제적인 주요 문제는 [개발 및 관리]가 자원 집약적이라는 것이다.

Validity considerations, feasibility issues, advantages, and disadvantages are detailed in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634), but a few themes warrant highlighting. In terms of content validity, these methods can be blueprinted, and their alignment with clinical practice is reasonable (higher than most non-WBAs, yet less authentic than true WBAs). Highly organized, standardized, reproducible stations require attention to SP and rater training. There is greater ability to control contextual factors in these standardized environments than in assessments that occur during actual clinical practice. Blueprinting for these assessments must attend to content specificity and distinguish what essential features are required to pass (with clear anchors for global rating scales). Performance correlations with other assessment measures (i.e., non-WBAs and/or WBAs) are only low to moderate, which is acceptable for formative assessments but is less than desirable for high-stakes summative decisions. Assessments in simulated environments are valued for their ability to measure multiple clinical reasoning components (Chart 1), but a major practical problem is that they are resource-intensive to both develop and administer.

WBA
WBAs

인증된 임상 환경 또는 WBA의 평가에 초점을 맞춘 7가지 방법이 확인되었다.
Seven methods were identified that focus on assessments in authentic clinical environments or WBAs.

직접 관찰(direct observation)은 성능 또는 임상 관찰이라고도 하며, 실제 임상 상황에서 학습자에 대한 데이터를 수집하는 관찰자(일반적으로 교수진)의 존재를 나타냅니다. 다양한 평가 도구가 직접 관찰을 위해 사용되었지만(예: 미니 임상 평가 연습[mini-CEX]) 임상 추론을 평가하도록 명시적으로 설계된 것은 아니다.

  1. Direct observation, also known as performance or clinical observation, describes the presence of an observer (typically a faculty member) who collects data about learners in authentic clinical contexts.43 A variety of assessment tools have been used for direct observation43 (e.g., the mini-clinical evaluation exercise [mini-CEX]),44 though they are not all explicitly designed to assess clinical reasoning.

글로벌 평가는 교직원 평가 양식의 공통 컴포넌트입니다. 직접 또는 간접 관찰에 기초한 임상 추론 성과에 대한 개별 판단 또는 게슈탈트 교사를 포착합니다.

  1. Global assessments are common components of faculty evaluation forms.45,46 They capture individual judgments or preceptor gestalt about clinical reasoning performance based on direct or indirect observations.

OCP는 임상 사례에 대한 체계적인 구두 보고입니다. 학습자가 무엇을 포함하거나 제외할 것인지, 데이터 구성, 평가와 계획의 구조와 내용에 대해 신중하게 선택할 때 학습자의 진단 및 치료 추론의 증거가 평가된다. 평가자는 학습자의 이해와 추가 정보를 탐색할 수 있습니다.

  1. OCPs are structured verbal reports of clinical cases.47,48 Evidence of a learner’s diagnostic and therapeutic reasoning is assessed as the learner makes deliberate choices about what to include or exclude, data organization, and the structure and content of the assessment and plan. Raters can probe learners for understanding and additional information.

서면 메모는 사례에 대한 임상 정보를 체계적인 방식으로 전달하는 또 다른 수단이다. 이 경우 서면 보고서를 통해. 다양한 도구 중 하나(예: 사후 메모, IDEA[해석 요약, 차등 진단, 추론 설명 및 대안] 평가 도구51)를 사용하여 평가할 수 있다. OCP와 마찬가지로 임상 추론은 메모의 여러 특징, 특히 요약문(주요 특징과 의미 한정자를 포함하는 사례의 캡슐화), 문제 목록, 차등 진단의 우선순위 부여, 정당성 및 관리 계획에서 평가할 수 있다.

  1. Written notes are another means of communicating clinical information about a case in a structured way—in this case, via a written report.49 They may be assessed by using one of a variety of tools (e.g., postencounter notes,50 the IDEA [interpretive summary, differential diagnosis, explanation of reasoning, and alternatives] assessment tool51). Similar to OCPs, clinical reasoning may be assessed from multiple features of a note, particularly the summary statement (an encapsulation of the case containing key features and semantic qualifiers), problem list, prioritization of the differential diagnosis, justification, and management plan.

CSR은 실제 임상 조우로부터의 [임상 문서 검토], 평가자가 근본적인 사고 과정을 조사하는 [구두 검사], 향후 진단 의사 결정을 개선하기 위한 [행동 계획]을 포함한 [피드백]으로 구성된 하이브리드 형식입니다. 

  1. CSR is a hybrid format consisting of clinical documentation review from an actual clinical encounter, an oral examination where an evaluator probes underlying thought processes, and feedback that may include action plans to improve future diagnostic decision making.52,53

Think aloud(TA)는 학습자에게 개별 과제를 부여하고 작업을 수행하는 동안 자신이 가졌거나 가졌던 여과되지 않은 생각을 음성으로 표현하도록 하는 기술입니다. TA는 일반적으로 작업을 완료하는 동안(동시) 관리되지만, 작업 완료 직후(지연) 수행될 수도 있습니다.

  1. Think aloud (TA) is a technique where learners are given a discrete task and asked to voice the unfiltered thoughts they have or had while performing the work.54,55 TAs are typically administered while completing the task (simultaneous) but may also be performed immediately following task completion (delayed).

SRL-M학습자가 [시작, 중간, 끝이 있는 임상 활동]에 [접근, 수행, 성찰]할 때, 학습자의 [생각, 행동, 느낌]에 대한 즉각적인 [태스크 수준 정보를 수집]하도록 설계된, [구조화된 인터뷰 프로토콜]이다. TA의 특징과 조합하여 메타인식을 평가할 수 있습니다.

  1. SRL-M describes a structured interview protocol designed to gather in-the-moment, task-level information about learners’ thoughts, actions, and feelings as they approach, perform, and reflect on a clinical activity that has a beginning, middle, and end.56,57 Combined with features of the TA, it can assess metacognition.


WBA 방법은 실제 환자를 [자극]으로 의존한다. 이러한 방법의 [응답 형식]에는 환자와의 임상 성과(직접 관찰, 글로벌 평가) 또는 작성된 구두 또는 서면 자유 텍스트(OCP, 서면 노트, CSR, TA, SRL-M)가 포함된다. [채점] 메커니즘은 매우 다양하며 다양한 유형의 항목별 또는 글로벌 등급 척도를 포함한다 (표준 참조, 기준 참조, 위탁 척도, 감독 척도), 체크리스트 등. WBA는 임상 사무직 및 레지던트 기간 동안 형성 평가에 가장 일반적으로 [사용]됩니다. 이러한 정보를 총괄적 의사결정에 사용할 경우, 일반적으로 [다수의 관측값 또는 글로벌 평가]를 합산한다. 일반적으로 사용되는 WBA는 [형성 평가에 사용되는 직접 관찰(예: 미니 CEX)]과 [임상 사무직 및 레지던트 로테이션 종료 총괄 평가에 사용되는 글로벌 평가]이다. 구두 발표와 서면 메모는 교수진의 최종 글로벌 평가에 영향을 미칠 수 있지만 고부담 평가에는 거의 사용되지 않습니다. TA와 SRL-M은 일반적으로 연구 맥락에 더 많이 관여하지만 어려움을 겪고 있는 학습자의 교정조치에 사용되어 왔다. 

WBA methods rely on real patients as stimuli. Response formats for these methods include clinical performance with patients (direct observation, global assessment) or constructed verbal or written free text (OCPs, written notes, CSR, TA, SRL-M). Scoring mechanisms vary widely and include itemized or global rating scales of various types (norm referenced, criterion referenced, entrustment scales, supervision scales), as well as checklists, etc. WBAs are most commonly used for formative assessment during clinical clerkships and residency. When they are used to make summative decisions, multiple observations or global assessments are typically aggregated. The workhorses of WBAs are direct observation (e.g., mini-CEX), which is typically used for formative assessments; and global assessments, which are typically used for end-of-rotation summative assessments during clinical clerkships and residency rotations. Oral presentations and written notes may influence a faculty rater’s final global assessment but are infrequently used for high-stakes assessments. TA and SRL-M are typically more involved in research contexts but have been used for the remediation of struggling learners.58,59

WBA 방법의 타당성 고려 사항, 실현 가능성 문제, 장점 및 단점에 대한 자세한 내용은 보충 디지털 부록 4에 요약되어 있지만, 여기서는 몇 가지 주제를 강조합니다. WBA의 큰 강점은 [임상 추론의 여러 구성 요소를 측정하는 능력]이다(그림 1). 이러한 방법은 실제 임상 환경에서 이뤄지므로 [내용 타당도 증거]와 [응답 프로세스 타당성 증거]가 합당하다. 그러나 임상 실무의 비체계적 성격은 [특정 임상 문제의 내용 적용 범위와 과다 또는 과소 표현]과 관련하여 문제를 제기할 수 있다. [내부 구조 증거(예: 항목 분석 데이터, 점수 척도 신뢰성, 표준 측정 오류)]는 이러한 방법 중 많은 수가 복잡한 행동의 관찰을 소수의 평가 결과로 정량화할 관찰자(시설 구성원)를 필요로 한다는 점에서 문제가 있다. 판단 과정에 편견과 불일치가 내재되어 있다. 이러한 타당도 위협을 줄이기 위한 핵심 전략은 [여러 평가자에 의한 다양한 임상 문제 집합에 대한 적절한 수의 관찰시간 경과에 따라 보장하는 것]이다. 일반화 이론의 관점에서 판단을 위해 허용 가능한 신뢰성에 도달하기 위해 12 - 14개의 미니 CEX가 필요하기 때문에, 이 정도가 되지 않는다면 WBAs를 사용하는 방어가능성에 의문이 있다. WBA의 도입에는 시간, 교수개발, 책무성, 평가에 참여하는 교수에 대한 인정 등이 과제가 되고 있습니다. 이는 임상환경이 [수련생의 감독이나 평가]보다 [생산성]을 중시하는 경우가 많기 때문입니다.

The details of validity considerations, feasibility issues, advantages, and disadvantages of WBA methods are summarized in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634), but we will highlight a few themes here. A great strength of WBAs is their ability to measure multiple components of clinical reasoning (Chart 1). Because these methods are embedded in authentic clinical environments, there is reasonable content and response process validity evidence. The nonsystematic nature of clinical practice, however, can present challenges with regard to content coverage and over- or underrepresentation of certain clinical problems. Internal structure evidence (e.g., item analysis data, score scale reliability, standard errors of measurement) is problematic in that many of these methods require an observer (faculty member) to quantify their observation of a complex behavior into a small number of assessment outcomes. Biases and inconsistencies are inherent in this judgment process.60–62 A key strategy to reduce these threats to validity is to ensure an adequate number of observations across a diverse set of clinical problems by multiple raters over time. The defensibility of using WBAs for summative pass/fail and remediation decisions is questionable without this because, from a generalizability theory perspective, 12 to 14 mini-CEXs are needed to reach acceptable reliability for judgments. Challenges to implementing WBAs include time, faculty development, accountability, and recognition for faculty who engage in these assessments, as clinical environments often value productivity over the supervision and evaluation of trainees.

 

논의
Discussion

이 검토는 현재 이용 가능한 임상 추론 평가 방법의 메뉴를 요약하고 타당성 고려사항, 타당성 문제, 장점 및 단점을 각각 강조한다. 특히 차트 1과 보충 디지털 부록 4는 평가 프로그램의 구축에 도움이 됩니다. 교육자는 각기 다른 타당성 고려사항을 가진 서로 다르지만 상호 보완적인 여러 임상 추론 평가 방법 중에서 선택할 수 있다. 조사 결과에 근거한 실용적인 가이던스는 리스트 1에 기재되어 있습니다.
This review summarizes the currently available menu of clinical reasoning assessment methods and highlights validity considerations, feasibility issues, advantages, and disadvantages for each. Chart 1 and Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/A634) in particular can help inform the construction of programs of assessment.63 Educators can select from a number of different but complementary clinical reasoning assessment methods, each with different validity considerations. Practical guidance based on our findings is given in List 1.

임상 추론 평가 방법의 기존 메뉴의 가치는 역량 기반 교육의 렌즈를 통해 가장 잘 이해할 수 있다. 의학 교육자가 학습자가 임상 추론의 역량을 ensure하려면 임상 추론의 모든 구성요소에 대한 강력한 평가를 제공해야 한다12(표 1 참조). 또한 적절한 샘플링을 준비해야 한다. 이는 여러 평가 방법을 사용해야만 달성할 수 있습니다. 
The value of the existing menu of clinical reasoning assessment methods can perhaps best be understood through the lens of competency-based education. If medical educators want to ensure that learners are competent in clinical reasoning, they must provide robust assessment of all components of clinical reasoning12 (see Table 1). Further, they must also arrange for adequate sampling. This can only be accomplished by employing multiple assessment methods.63

차트 1을 자세히 살펴보면 일반적으로 사용되는 [많은 형태(MCQ, EMQ, KFE, SCT)의 비 WBA]는 [정보 수집, 가설 생성 및 문제 표현 평가]에서 [평균에 불과하다]는 것을 알 수 있습니다. 이들의 강점은 감별 진단 평가, 선도 진단, 관리 및 치료에 있습니다. 시뮬레이션된 임상 환경과 WBA에서의 평가는 정보 수집을 평가하는 데 더 우수하며, 직접 관찰과 OSCE가 이 영역에서 가장 강력하다. SRL-M 및 TA 전략은 학습자가 추론 과정에서 숨겨진 이러한 단계를 명확하게 설명하도록 하기 때문에 가설 생성 및 문제 표현을 측정하기 위한 효과적인 도구입니다. 교육자는 임상 추론의 다양한 구성요소를 평가하는 데 강한 전략을 신중하게 조합함으로써(예를 들어 MCQ + SRL-M + OSCE) 더 큰 역량의 모든 구성요소에 대한 평가를 확실하게 시작할 수 있습니다.
A close look at Chart 1 demonstrates that many forms of non-WBAs in common use (MCQs, EMQs, KFEs, SCTs) are only poor to average at assessing information gathering, hypothesis generation, and problem representation. Their strengths lie more in assessing differential diagnosis, leading diagnosis, and management and treatment. Assessments in simulated clinical environments and WBAs are better at assessing information gathering, with direct observation and OSCEs being the strongest in this domain. SRL-M and TA strategies are effective tools for measuring hypothesis generation and problem representation because they force learners to articulate these otherwise hidden steps in the reasoning process.64 By carefully combining strategies that are strong at assessing the different components of clinical reasoning (e.g., MCQs + SRL-M + OSCEs), educators can begin to ensure assessment of all components of the larger competency.

물론 "전체"로서의 임상적 추론 능력은 "부분"의 합보다 더 크다. 평가 프로그램을 구성할 때 [임상 추론의 모든 구성 요소를 평가하는 것]은 필요하지만 충분하지는 않다. 학습자가 기술을 임상 실습으로 이전할 수 있도록 보장하기 위해 전체 작업 평가(즉, 전체 임상 추론을 다루는 평가)가 필요하며, 광범위한 표본 추출을 위해 부분 작업 평가가 필요하다. 전체 및 파트 태스크 평가(예: 직접 관찰, OSCE 및 MCQ, KFE 및 EMQ와 결합된 글로벌 평가)의 조합은 평가 프로그램의 기초를 형성할 수 있다.
Of course, clinical reasoning competence as a “whole” is more than the sum of its “parts.”65 When constructing an assessment program, it is necessary, but not sufficient, to ensure assessment of all components of clinical reasoning. Whole-task assessments (i.e., those that cover the full range of clinical reasoning) are needed to ensure that learners can transfer skills into clinical practice,66 while part-task assessments are needed to achieve broad sampling. Combinations of whole- and part-task assessments (e.g., direct observations, OSCEs, and global assessments combined with MCQs, KFEs, and EMQs) can form a foundation for a program of assessment.

교육자는 또한 방법 중에서 선택할 때 평가의 [타당성, 사용가능성, 방어가능성]을 고려해야 합니다. 차트 1을 보면, 평가자가 주로 WBA를 사용하는 경우, 실제 임상 환경에서 임상 추론의 모든 구성 요소에 대한 강력한 적용 범위를 확보하고 학습자가 유능하다고 쉽게 간주할 수 있다고 결론지을 수 있다. WBA는 매우 중요하며 현재의 역량 기반 교육 프로그램에서 더욱 강조할 가치가 있지만, 실현 가능성과 비용(교직원의 시간과 비용에 관한)이 종종 [표본으로 삼을 수 있는 사례의 수와 다양성을 제한]하기 때문에, 임상 추론을 평가하기 위하여 배타적으로 WBA만 사용하게 되면 내용특이성과 맥락특이성에 의해 제약을 받을 것이다. 이러한 관점에서 볼 때, 비 WBA(예: MCQ, EMQ, KFE)를 활용하여 맥락특이성의 문제를 줄이고, [블루프린트, 통제, 일관성 및 정확성]을 확보하는 동시에, 광범위한 표본을 확보함으로써, 임상 추론 평가 프로그램에 중요한 가치를 더할 수 있다. 따라서 타당성과 실현가능성을 모두 고려한다면, 모든 평가 프로그램에서는 [비 WBA, 시뮬레이션 환경의 평가, WBA의 균형]을 유지하는 것이 중요하다.

Educators must also consider the validity, feasibility, and defensibility of assessments when choosing among methods. Looking at Chart 1, one might conclude that if assessors predominately used WBAs, they would obtain robust coverage of all components of clinical reasoning in authentic clinical environments and easily be able to deem a learner competent. Although WBAs are critically important and deserve greater emphasis in current competency-based educational programs,67,68 the limitations of an exclusively WBA approach to assessing clinical reasoning rest in the problem of content and context specificity because feasibility and cost (with regard to faculty time and money) often limit the number and variety of cases that can be sampled. Seen in this light, non-WBAs (e.g., MCQs, EMQs, KFEs) add important value to a program of clinical reasoning assessment by ensuring broad sampling, while lessening issues of context specificity and providing opportunities for blueprinting, control, consistency, and accuracy. Thus, for validity and feasibility reasons, it is critical to have a balance of non-WBAs, assessments in simulated clinical environments, and WBAs in any assessment program.

이러한 균형을 잡는 것이 교육적 맥락에 따라 어려울 수 있습니다. 예를 들어,

  • [학부 의학교육 프로그램]은 종종 MCQ, OSCE, 글로벌 평가, 구두 발표 및 서면 메모의 조합을 사용하여 추론을 평가합니다. 이러한 프로그램은 [직접 관찰]과 같은 특정 방법의 사용을 개선하는 동시에 현재 충분히 평가되지 않을 수 있는 임상 추론의 구성 요소를 얻기 위해 TA 또는 SRL-M과 같은 새로운 방법을 통합하기를 원할 수 있다.
  • [졸업후 의학 교육]에서 학습과 평가의 대부분은 임상 환경에서 이루어지며, 종종 MCQ로 구성된 기술 강화 시뮬레이션과 훈련 중인 검사를 통해 강화된다. 광범위한 평가 방법을 통합하고, 현재 사용 중인 평가 방법을 개선하며, 바쁜 임상 환경에서 도구에 대한 평가자를 교육하는 것은 쉽지 않을 것입니다.

WBA가 개선되면, 이러한 보다 전체적인holistic 평가가 우세할 수 있으며, 비 WBA는 주로 [불확실성과 재교육 상황]에서 주로 사용될 수 있다. 그러나 이러한 전환을 효과적으로 하기 위해서는 여전히 많은 연구가 필요하다.

Creating such a balance can be challenging depending on the educational context.

  • For example, undergraduate medical education programs often use a combination of MCQs, OSCEs, global assessments, oral presentations, and written notes to assess reasoning. These programs may wish to improve the use of certain methods, such as direct observation, while also incorporating novel methods, such as TA or SRL-M to get at components of clinical reasoning that may be currently underassessed.
  • In graduate medical education, the bulk of learning and assessment happens in the clinical environment, augmented occasionally by technology-enhanced simulation and in-training examinations, which are largely comprised of MCQs. Incorporating a wider range of assessment methods, improving on assessment methods currently in use, and training raters on tools in busy clinical settings will be daunting.

As WBAs improve, it may be possible that these more holistic assessments can predominate, and non-WBAs can be used largely for situations of uncertainty and remediation; however, much research is still needed to make this transition effectively.

궁극적으로, 기관은 평가 프로그램이 임상 추론의 구성요소에 대한 완전한 적용 범위를 제공하는지 확인해야 한다(표 1과 차트 1). 프로그램은 [전체 태스크 방법]과 [부분 태스크 방법]을 모두 사용할 필요가 있을 뿐만 아니라, [타당성]에 대한 다양한 위협과 관련하여 방법에 대한 균형 잡힌 표현을 제공해야 한다(보조 디지털 부록 4 참조). 임상 추론을 위한 프로그램적 평가는 여전히 많은 기관에서 초기 개념이지만, 이 리뷰는 이 분야가 미래에 이동해야 한다는 것을 시사한다. 의료기관은 임상 추론의 빈번한 평가를 수행하여 여러 출처에서 여러 방법을 사용하여 다양한 맥락 또는 환경에 걸쳐 세로 방향으로 정보를 수집해야 한다. 이는 시간과 교직원 육성의 필요성 때문에 현실에서 어려운 일이지만, 높은 수준의 종합적 결정이나 역량 결정을 내릴 때 평가 프로그램의 방어성에 매우 중요합니다. 또한 환자 안전을 보장하는 것도 중요하다.69 현재 평가 관행이 비 WBA, 시뮬레이션 임상 환경의 평가 및 WBA의 적절한 균형을 이루는지 여부는 논란의 여지가 있지만 이 검토의 범위를 완전히 벗어나 있다.
Ultimately, institutions must ensure that their programs of assessment offer complete coverage of the components of clinical reasoning (Table 1 and Chart 1). Programs will need to use both whole- and part-task methods as well as provide a balanced representation of methods with regard to various threats to validity (see Supplemental Digital Appendix 4 at https://links.lww.com/ACADMED/A634). Programmatic assessment for clinical reasoning is still a nascent concept at many institutions, yet this is where this review suggests the field needs to move in the future. Institutions need to conduct frequent assessments of clinical reasoning, gathering information longitudinally from multiple sources, using multiple methods, across various contexts or settings. This is challenging in the real world because of time and the necessity of faculty development, yet it is critical for the defensibility of an assessment program when making high-stakes summative decisions or competency determinations. It is also critical to ensure patient safety.69 Whether our current assessment practices strike the right balance of non-WBAs, assessments in simulated clinical environments, and WBAs is debatable but beyond the scope of this review to fully address.

우리의 논의는 주로 임상추론역량과 [학습의 평가AoL]에 초점을 맞췄지만, [학습을 위한 평가AfL]를 고려하는 것도 중요하다. 많은 동일한 원칙이 적용되지만, 학습을 위한 평가는 보다 형성적이며, 임상 추론 과정을 학습하고 가르치는 데 높은 가치가 있기 때문에, [다른 범위의 타당성 증거]를 사용할 수 있다(즉, 방법이 목적에 적합해야 한다). 예를 들어, CIP와 개념 지도는 학생들이 질병 스크립트를 개발하고 연결을 형성하도록 돕는다는 점에서 학습에 큰 효용을 가지고 있으며, 진단 전문지식의 기초라고 생각되는 코딩 및 검색 네트워크의 개발을 촉진한다. 직접 관찰 및 기술 강화 시뮬레이션과 같은 전체 작업 임상추론 평가는 다수의 관찰 없이 총괄적 판단을 하는 데 적합하지 않더라도 형성적 피드백을 얻는 데 필수적인 수단이다.

Although our discussion has largely focused on determining clinical reasoning competency and assessment of learning, it is also important to consider assessment for learning. While many of the same principles apply, assessment for learning is more formative and may employ methods that have a different range of validity evidence because of their high value for learning and teaching the clinical reasoning process (i.e., the method is fit for the purpose). For example, CIPs and concept maps have great utility for learning in that they help students develop illness scripts and form connections, facilitating the development of coding and retrieval networks, which are thought to be the basis of diagnostic expertise.70,71 Whole-task clinical reasoning assessments, such as direct observations and technology-enhanced simulations, are essential means of obtaining formative feedback, even if they are not well suited for making summative judgments without large numbers of observations. 


의사의 역량으로서의 임상 추론의 중요성은 평가의 엄격함과 혁신을 요구한다. 이 검토는 임상 추론 평가 방법에 상당한 혁신이 있었음을 보여주지만, 아직 해야 할 일이 많이 남아 있다. 우리는 이 집계된 자료가 교육자들이 임상 추론 평가 방법의 기존 메뉴와 그 중에서 선택하는 방법에 대해 더 잘 알 수 있도록 돕기를 바란다. 우리는 이 방법들의 개선을 이끌기 위해 지속적이고 엄격한 타당성 증거 수집의 필요성을 강조한다. 의대, 레지던트 프로그램 및 면허 위원회가 학습자의 역량을 자신 있게 결정할 수 있도록 다양한 방법을 임상 추리 평가의 유효한 프로그램에 가장 잘 결합하는 방법을 결정하기 위한 미래 연구도 필요하다.

The importance of clinical reasoning as a physician competency mandates rigor and innovation in the assessment of it. This review demonstrates that there has been considerable innovation in clinical reasoning assessment methods, but there remains much work to be done. We hope this collated resource will help educators become more aware of the existing menu of clinical reasoning assessment methods and how to choose among them. We emphasize the need for ongoing and rigorous gathering of validity evidence to guide improvements in each of these methods. Future research is also needed to determine how to best combine various methods into valid programs of clinical reasoning assessment to allow medical schools, residency programs, and licensing boards to confidently determine the competence of their learners.

 

220402 Clinical Reasoning Clinical_Reasoning Supplementary acadmed_2019_01_24_daniel_acadmed-d-18-00787_sdc4.pdf
0.41MB

List 1 2016년 임상추론평가방법 범위 검토의 임상추론평가를 위한 실무지침
List 1 
Practical Guidance for Clinical Reasoning Assessment From a 2016 Scoping Review of Clinical Reasoning Assessment Methods

  • 임상 추론 평가 프로그램의 일부로 다양한 평가 방법(즉, 비 WBA, 시뮬레이션 임상 환경의 평가 및 WBA)을 사용해야 한다.
  • Multiple assessment methods (i.e., non-WBAs, assessments in simulated clinical environments, and WBAs) should be used as part of a clinical reasoning assessment program.
  • 많은 개별 평가 방법은 적절한 항목 또는 사례의 수, 광범위한 표본 추출 및 충분한 시험 시간으로 높은 단계 평가( 0 >= 0.8)에 대한 적절한 [신뢰성]을 얻을 수 있다.
  • Many individual assessment methods can obtain adequate reliability for high-stakes assessment (≥ 0.8) with an adequate number of items or cases, broad sampling, and sufficient testing time.
  • 역량을 확신ensure하려면, 내용 및 상황 특이성을 수용하기 위한 다양한 환경에서 다양한 임상 문제를 다루는 많은 평가가 종적으로 필요하다.
  • To ensure competence, a large number of assessments are needed, administered longitudinally, that cover a variety of clinical problems in diverse settings to accommodate content and context specificity.
  • 평가방법은 임상 추론, 타당성, 실현가능성, 방어가능성, 목적적합성 등 다양한 구성 요소의 적용범위에 기초하여 선택해야 한다.
  • Methods should be chosen based on coverage of the different components of clinical reasoning, validity, feasibility, defensibility, and fit for the purpose of the assessment.
  • 전체작업평가 및 부분작업평가 방법을 함께 사용하면(즉, 임상 추론의 모든 구성 요소와 일부 구성 요소를 포괄하는 방법)은 전체 구조의 측정과 적절한 표본 추출을 보장할 수 있다.
  • Whole- and part-task assessment methods (i.e., those that cover all versus a few components of clinical reasoning) used together can ensure measurement of the whole construct and adequate sampling.
  • 비 WBA(예: MCQ, EMQ, KFE)는 광범위한 샘플링, 블루프린팅, 통제, 일관성이라는 장점이 있다. 정확성도 평가할 수 있습니다.
  • Non-WBAs (e.g., MCQs, EMQs, KFEs) have the advantage of broad sampling, blueprinting, control, and consistency. They can also assess accuracy.
  • MCQ와 KFE[내용, 내부 구조, 임상 수행능력에 대한 성과 또는 후과]에 관한 최선의 타당성 증거를 가지고 있다. 그러나 [응답 프로세스]에 관한 경우, 그들은 중요한 문제를 안고 있다.
  • MCQs and KFEs have the best validity evidence regarding content, internal structure, and consequences or outcomes on clinical practice performance; however, they have significant issues with cueing when it comes to response process.
  • [비 WBA]는 [전체 과제를 더 많이 측정하는 경향이 있는 시뮬레이션과 WBA]에 비해, 임상 추론의 구성요소의 수가 더 제한적이다.
  • Non-WBAs measure a more limited number of components of clinical reasoning compared with simulations and WBAs, which tend to measure more of the whole task.
  • WBA는 실제 임상 프랙티스에 포함되기에, [내용 및 응답 프로세스의 타당성]에 대한 신뢰성을 제공합니다.단, 내용 커버리지가 체계적이지 않습니다.
  • WBAs are embedded in actual clinical practice, lending authenticity to content and response process validity; however, content coverage is not systematic.
  • 일반화 이론의 관점에서 판단의 허용 가능한 신뢰성에 도달하기 위해서는 다수의 측정이 필요하기 때문에 요약 의사결정에 WBA를 사용하는 것의 방어가능성은 의문을 갖게 만들 수 있다. WBA의 경우 [장기간에 걸쳐 복수의 평가자에 의한 평가]가 필수적입니다.
  • The defensibility of using WBAs for summative decisions is questionable because, from a generalizability theory perspective, a large number of measurements are needed to reach acceptable reliability for judgments. Ensuring evaluation by multiple raters over time is also essential for WBAs.
  • [전체 과제 임상 추론 평가](즉, 정보 수집에서 차등 진단, 관리 및 치료까지 모든 작업을 포괄하는 평가)는 형성적 피드백과 학습을 위한 평가에 필수적이다.
  • Whole-task clinical reasoning assessments (i.e., those that cover the full range of tasks from information gathering to differential diagnosis to management and treatment) are essential for formative feedback and assessment for learning.
  • [시뮬레이션된 임상 환경과 WBA의 평가]는 학습자가 개발 및 관리에 시간과 자원이 많이 소요되지만 전체 과제에 대해 평가되도록 하기 때문에 모든 포괄적인 평가 전략의 필수적인 부분이다.
  • Assessments in simulated clinical environments and WBAs are essential parts of any comprehensive assessment strategy because they ensure that learners are assessed on the whole task, though they are time- and resource-intensive to develop and administer.

Abbreviations: WBAs indicates workplace-based assessments; MCQs, multiple-choice questions; EMQs, extended matching questions; KFEs, key feature examinations.

 


Acad Med2019 Jun;94(6):902-912.  doi: 10.1097/ACM.0000000000002618.

Clinical Reasoning Assessment Methods: A Scoping Review and Practical Guidance

Affiliations collapse

Affiliation

1M. Daniel is assistant dean for curriculum and associate professor of emergency medicine and learning health sciences, University of Michigan Medical School, Ann Arbor, Michigan; ORCID: http://orcid.org/0000-0001-8961-7119. J. Rencic is associate program director of the internal medicine residency program and associate professor of medicine, Tufts University School of Medicine, Boston, Massachusetts; ORCID: http://orcid.org/0000-0002-2598-3299. S.J. Durning is director of graduate programs in health professions education and professor of medicine and pathology, Uniformed Services University of the Health Sciences, Bethesda, Maryland. E. Holmboe is senior vice president of milestone development and evaluation, Accreditation Council for Graduate Medical Education, and adjunct professor of medicine, Northwestern Feinberg School of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0003-0108-6021. S.A. Santen is senior associate dean and professor of emergency medicine, Virginia Commonwealth University, Richmond, Virginia; ORCID: http://orcid.org/0000-0002-8327-8002. V. Lang is associate professor of medicine, University of Rochester School of Medicine and Dentistry, Rochester, New York; ORCID: http://orcid.org/0000-0002-2157-7613. T. Ratcliffe is associate professor of medicine, University of Texas Long School of Medicine at San Antonio, San Antonio, Texas. D. Gordon is medical undergraduate education director, associate residency program director of emergency medicine, and associate professor of surgery, Duke University School of Medicine, Durham, North Carolina. B. Heist is clerkship codirector and assistant professor of medicine, University of Pittsburgh School of Medicine, Pittsburgh, Pennsylvania. S. Lubarsky is assistant professor of neurology, McGill University, and faculty of medicine and core member, McGill Center for Medical Education, Montreal, Quebec, Canada; ORCID: http://orcid.org/0000-0001-5692-1771. C.A. Estrada is staff physician, Birmingham Veterans Affairs Medical Center, and director, Division of General Internal Medicine, and professor of medicine, University of Alabama, Birmingham, Alabama; ORCID: https://orcid.org/0000-0001-6262-7421. T. Ballard is plastic surgeon, Ann Arbor Plastic Surgery, Ann Arbor, Michigan. A.R. Artino Jr is deputy director for graduate programs in health professions education and professor of medicine, preventive medicine, and biometrics pathology, Uniformed Services University of the Health Sciences, Bethesda, Maryland; ORCID: http://orcid.org/0000-0003-2661-7853. A. Sergio Da Silva is senior lecturer in medical education and director of the masters in medical education program, Swansea University Medical School, Swansea, United Kingdom; ORCID: http://orcid.org/0000-0001-7262-0215. T. Cleary is chair, Applied Psychology Department, CUNY Graduate School and University Center, New York, New York, and associate professor of applied and professional psychology, Rutgers University, New Brunswick, New Jersey. J. Stojan is associate professor of internal medicine and pediatrics, University of Michigan Medical School, Ann Arbor, Michigan. L.D. Gruppen is director of the master of health professions education program and professor of learning health sciences, University of Michigan Medical School, Ann Arbor, Michigan; ORCID: http://orcid.org/0000-0002-2107-0126.

PMID: 30720527

DOI: 10.1097/ACM.0000000000002618

Abstract

Purpose: An evidence-based approach to assessment is critical for ensuring the development of clinical reasoning (CR) competence. The wide array of CR assessment methods creates challenges for selecting assessments fit for the purpose; thus, a synthesis of the current evidence is needed to guide practice. A scoping review was performed to explore the existing menu of CR assessments.

Method: Multiple databases were searched from their inception to 2016 following PRISMA guidelines. Articles of all study design types were included if they studied a CR assessment method. The articles were sorted by assessment methods and reviewed by pairs of authors. Extracted data were used to construct descriptive appendixes, summarizing each method, including common stimuli, response formats, scoring, typical uses, validity considerations, feasibility issues, advantages, and disadvantages.

Results: A total of 377 articles were included in the final synthesis. The articles broadly fell into three categories: non-workplace-based assessments (e.g., multiple-choice questions, extended matching questions, key feature examinations, script concordance tests); assessments in simulated clinical environments (objective structured clinical examinations and technology-enhanced simulation); and workplace-based assessments (e.g., direct observations, global assessments, oral case presentations, written notes). Validity considerations, feasibility issues, advantages, and disadvantages differed by method.

Conclusions: There are numerous assessment methods that align with different components of the complex construct of CR. Ensuring competency requires the development of programs of assessment that address all components of CR. Such programs are ideally constructed of complementary assessment methods to account for each method's validity and feasibility issues, advantages, and disadvantages.

 

수행능력저하를 믿지 않는 것에서 실패를 인식하기까지: 티핑 포인트 모델(Med Educ, 2021)
The shift from disbelieving underperformance to recognising failure: A tipping point model
Andrea Gingerich1 | Stefanie S. Sebok-Syer2 | Lorelei Lingard3 | Christopher J. Watling3

 

1 도입
1 INTRODUCTION

[Fail해야하는 수련생을 만나는 것]은 많은 감독관들에게 엄중한 시험이다. 슈퍼바이저가 테스트에 어떻게 반응하는지는 훈련생에게 매우 중요하며 치명적일 수 있습니다. 또, 업무량이나 감정에 미치는 영향을 생각하면, Fail을 보고하는 감독관에게도 영향이 크다. 부정적인 후폭풍을 먼저 고려한다면, 수습생의 실적 실패를 보고하지 않는 것은 평가 프로세스에 참여하는 것을 꺼리는(또는 원치 않는) 것으로 간주됩니다. 이에 대응하기 위한 방법으로 양식을 수정하는 것부터, 시스템을 재구성하는 것에 이르기까지 다양한 변화들이 평가 디자인에 통합되었다.

  • [평가 양식 수준의 대응책]으로는 부정적인 평가 판단을 기록하는 더 힘든 작업을 피하기 위해 [감독관이 실습생에게 제공한 면밀한 감독을 기록하도록 하는 것]이 포함된다. 예를 들어, 감독자는 O-SCORE(Ottawa 수술 능력 수술실 평가) 척도의 '설득' 등급을 선택하는 것을 Mini-CEX(Mini Clinical Evaluation eXercise) 척도의 '불만족' 등급을 지정하는 것보다 덜 꺼릴 수 있습니다.
  • [평가 시스템 수준의 대응책]은 평가 데이터 제공자 및 진행 의사결정자로서 동시에 기능해야 하는 압박을 완화하기 위해 [평가 순간을 의사결정 순간과 분리하는 프로그램적 평가 접근법]을 포함한다. 예를 들어, 감독자는 다른 많은 평가와 결합되어 진행 결정을 내리기 위해 다른 이해관계자가 사용하는 저부담 평가에 대해 추가적인 개선이 필요한 영역을 덜 꺼릴 수 있으며, 훈련 중인 평가 보고서 하나를 제출하여 수습자의 진행을 중단시키는 것보다 덜 꺼릴 수 있다.

Coming face to face with a trainee who needs to be failed is a stern test for many supervisors. How supervisors respond to the test is highly consequential, and potentially catastrophic, for the trainee. It can also be consequential for the supervisor, many of whom report workload and emotional repercussions that interfere with assessment demands.1-6 When negative repercussions are prioritised, not reporting a trainee's failing performance becomes framed as reluctance1, 6-19 (or even unwillingness)20, 21 to engage in the assessment process. In response, countermeasures to reluctance have been incorporated into assessment designs with changes that range from revised forms through to reconfigured systems.

  • Countermeasures on assessment forms include having supervisors record the close supervision they provided for a trainee during a task to avoid the more daunting task of recording negative evaluative judgements.22 For example, supervisors may be less reluctant to select the ‘talk them through’ rating on an O-SCORE (Ottawa Surgical Competency Operating Room Evaluation) scale23 than to assign an ‘unsatisfactory’ rating on a Mini-CEX (Mini Clinical Evaluation eXercise) scale.24 
  • Countermeasures in assessment systems include the programmatic assessment approach of separating assessment moments from decision moments to relieve the pressure of simultaneously functioning as the assessment data provider and the progression decision maker.25 For example, supervisors may be less reluctant to note domains requiring further improvement on a low stakes assessment that is combined with many other assessments and used by other stakeholders to make progress decisions,26 than to stop a trainee's progression by submitting a single ‘unsatisfactory’ in-training evaluation report.27 

그러나 이러한 대응책은 여전히 개별 감독관이 평가 데이터와 유사한 개인으로 구성된 위원회가 교정조치 의무화, 진행 변경 또는 프로그램 연습생 퇴출에 큰 위험을 수반하는 결정을 내릴 때 중요한 의견을 제공한다. 다양한 대책을 시도한 것의 증거는 긍정적이지만, 여전히 [관습적 tick-boxing]이나 [토큰 코멘트]가 확인되고, 이는 중요한 평가 정보가 항상 제공되지는 않을 수 있음을 시사한다. 

However, these countermeasures still rely on individual supervisors to provide critical comments as assessment data and committees composed of similar individuals to make high stakes decisions to mandate remediation, alter progression, or remove a trainee from a programme. Although early evidence from the implementation of various countermeasures is promising,28-30 findings of bureaucratic tick-boxing and token comments suggest that important assessment information may not always be provided.28, 30-32

[수련생을 fail시키는 것에 대한 감독관의 거부감]을 탐색하는 이전 작업은 감독관에 의해 보류된 평가 정보를 수집하기 위한 해결책을 찾는 데 도움이 됩니다.

  • [프로세스의 초기 단계]는 실패가 감지되고, 특징지어지고, 확인되는 중요한 순간이지만, 여기에 대한 관심은 적습니다.
  • 최근의 작업에서는, 상사가 어떻게 실적이 저조한 연수생을 인식하는지를 보다 잘 이해하려고 노력했습니다.또, 상사가 예기치 않은 실적 저하의 징후에 직면했을 때에, 불신하는 시기phase of disbelief을 특정했습니다.
    • 이러한 불신disbelief은 수행능력이 저조한 훈련생을 만났을 때의 놀라움이나 당혹감과 관련이 있다.
    • 수행능력이 저조한 간호대생에 대해 간호교사가 경험하는 불안하고 불편한 직감과 현저하게 유사했다.
    • 감독관은 수련생을 의심하기도 하지만, 흔히 그렇듯이, 그들은 또한 그들이 목격한 것을 이해하기 위해 추가적인 관찰을 수집하는 경향도 있었다.
  • [불신하는 것]에서 [수행능력 저하를 인정하는 것]으로의 이행은 수련생(또는 수련생의 부족한 영역)이 교육에 얼마나 반응하는지에 따라 결정되며, 동시에 계속적이고 강화된 감독 노력이 무의미할 것이라는 깨달음과 일치한다.
  • 그러나, [수행능력 저하의 불신]에서 [실패의 인정]으로의 전환은 충분히 탐색되지 않았다.

Previous work exploring supervisors' reluctance to fail trainees helpfully invites solutions for gleaning assessment information withheld by supervisors.1, 2, 16, 19, 20, 33, 34 Less attention has been directed to earlier phases of process—those critical moments where failure is noticed, characterised and confirmed. In recent work, we sought to better understand how supervisors recognise trainees who are underperforming and we identified a phase of disbelief as supervisors encountered unexpected signs of underperformance.35 This disbelief was related to surprise or bewilderment at encountering an underperforming trainee and was strikingly similar to the unsettling and uncomfortable gut feelings experienced by nursing instructors while interacting with underperforming nursing students.36 Although supervisors tended to give the trainee the benefit of the doubt, as is common,6, 8, 12, 16, 37, 38 they were also inclined to gather additional observations to make sense of what they were seeing.35, 36 The shift from disbelieving to recognising underperformance hinged on perceiving how responsive the trainees (and the deficits) were to teaching and coincided with a realisation that continued, intensified supervisory efforts would likely be futile.35 However, the shift from disbelieving underperformance to recognising failure has been underexplored.

이러한 변화는 결국 [실패의 증거를 보고할 것인지에 대한 의사결정]을 초래하는 더 큰 과정 내에 존재하는 특정한 측면이지만, 평가 프로세스에 대한 참여를 개선하기 위해서는 이해하는 것이 매우 중요합니다. 실패는 드문 일이기는 하지만 실제로 일어났을 때는 매우 중요하며, 발생했어야 했지만 발생하지 않았을 때는 더욱 중요하기 때문에 신중한 연구가 필요합니다. 따라서 본 연구에서는 다음과 같은 질문을 합니다. 슈퍼바이저는 Failure를 어떻게 인정하게 되는가? 특히, [수행능력 저하의 초기 징후를 믿지 않는 것]으로부터 [수련생의 실패를 인정하는 것]으로의 이행에 대해 검토하기 위해서, 가장 역량이 저조한 수련생과 협업한 경험을 설명하도록 감독자를 초대했다.
Although this shift is a specific aspect within the larger process that eventually results in decisions about reporting evidence of failure, it is a critical aspect to understand in order to improve engagement in assessment processes. While failure is admittedly rare, it is so consequential when it does occur—and perhaps even more so when it should have occurred but does not—that it demands careful study. Therefore, in this study we ask the question: How do supervisors recognise failure? In particular, we invited supervisors to describe their experiences working with the least competent trainees to examine the shift from disbelieving early signs of underperformance to recognising failure.

2 방법
2 METHODS

2.1 개요
2.1 Overview

이 연구는 감독관들이 [무역량incompetence을 보여주는 훈련생들을 어떻게 평가하는지]를 조사하는 연구 프로그램 내에 위치하고 있다. 우리의 초기 연구는 특별히 실패를 인식하는 데 초점을 맞추지 않았다. 그러나 우리는 장기간의 교정조치 및 프로그램에서 해고되는 동안 심각한 underperformance을 인식하는 것과 관련된 몇 가지 주제를 식별했다. 그 후 목적적이고 이론적인 표본 추출을 사용하여 의사 상사의 추가 모집과 함께 이러한 연구되지 않은 주제를 조사했다. 이와 같이, 이 연구는 감독관이 저조한 성과를 인식하는 방법을 탐색하기 위해 이전에 수집된 데이터와 새로운 데이터를 결합하여, underperforming 훈련생이 진급하도록 둬서는 안 되며, 유급시킬 필요가 있다는 것을 어떻게 인식하는지 더 잘 탐색한다. 실적 저하의 불신의 징후에서 실패를 인식하는 것으로의 이행에 초점을 맞추고 있는 것은, 상사가 다른 사람과 교류하면서 어떻게 생각하는지를 연구하는 것입니다. 우리는 구성주의 기반 이론 방법론(CGT)을 사용하여 개별 감독자가 사회적 맥락의 규칙과 기대에 따라 다른 감독자와 상호작용할 때의 경험에 초점을 맞추도록 데이터 수집과 분석을 안내했다. 이 프로젝트는 Northern British Columbia 대학의 연구 윤리 심사 위원회로부터 승인을 받았습니다.

This study is situated within a programme of research investigating how supervisors assess trainees who demonstrate incompetence. Our earlier study was not focused specifically on recognising failure; however, we identified some themes related to recognising profound underperformance during prolonged remediation and dismissals from programmes. We subsequently investigated these underexplored themes with additional recruitment of physician supervisors using purposive and theoretical sampling. As such, this study combines data collected previously to explore how supervisors recognised underperformance with new data collected to better explore how they recognised that an underperforming trainee should not be allowed to progress and needed to be failed. Our focus on the shift from disbelieving signs of underperformance to recognising failure involves studying how supervisors think while interacting with others. We used constructivist grounded theory39 methodology (CGT) to guide data collection and analysis to focus on the experiences of individual supervisors as they interact with others according to the rules and expectations of social contexts. This project received approval (E2018.0613.065) through the University of Northern British Columbia's research ethics review board.

2.2 참가자 및 모집
2.2 Participants and recruitment

2018-2019년에 캐나다 브리티시 컬럼비아의 비수술 전문 분야 의사 22명을 인터뷰한 결과, 학습에 관여할 수 없거나 학습에 관여하지 않아 불안정한 진행이 정체된 것으로 나타났다. 앞에서 기술한 바와 같이, 우리는 추가적인 데이터 수집에 관여함으로써, 감독관이 현저하게 실적이 저조한 훈련생과 어떻게 작업하고 있는지, 그리고 훈련생의 성과가 실패했을 때 어떻게 그들이 인지하게 되는지에 대한 이해를 깊게 하기로 결정했다. 원참가자 대부분이 여성이고 모두 비외과 전문직이었기 때문에, 우리는 남성참가자와 외과 및 시술 우위의 전문직 종사자를 대상으로 신규 모집 노력을 집중했다. 우리는 주요 정보 제공자와 눈덩이 표본을 사용하여 4년제 의과대학 프로그램 또는 대학원 레지던트 프로그램 중 하나에서 임상 환경에서 훈련생에게 실패하거나 교정한 경험이 있는 의사를 식별하고 초대했다. 우리는 다양한 전문성, 임상 환경 및 관점의 변화를 극대화하기 위해 주 전역에 분산된 수많은 브리티시컬럼비아 대학(UBC) 의학부 사이트에서 감독에 대한 다양한 수준의 경험을 가진 참가자를 찾았다. 

In 2018–2019, we interviewed 22 physicians from non-surgical specialties in British Columbia, Canada, and characterised underperformance as stalled progression due to the inability to engage in learning or precarious progression due to unwillingness to engage in learning.35 As noted previously, we decided to deepen our understanding of how supervisors experience working with markedly underperforming trainees and how they come to recognise when a trainee's performance merits failure, by engaging in additional data collection. Since the majority of the original participants were female and all were from non-surgical specialties, we concentrated new recruitment efforts on male participants and those from surgical and procedurally dominant specialties. We used key informants and snowball sampling to identify and invite physicians with experience failing or remediating trainees in the clinical setting, in either the 4-year medical school programme or in one of the postgraduate residency programmes. We sought participants with varying levels of experience with supervision from diverse specialties, clinical settings and numerous University of British Columbia (UBC) Faculty of Medicine sites distributed across the province to maximise variation in perspectives.

2019년 5월부터 2020년 1월 사이에 20명의 의사(남성 7명)를 추가로 모집하고 면접했으며, 이 중 13명이 외과 또는 프로시져 중심의 전공 출신이었다. 따라서 최종 참가자 샘플은 17개 전문분야를 대표하는 42명(남성 11명)의 참가자로 구성되었다. 총 28명의 참가자는 의료 전문 분야(예: 가정의학, 내과, 정신의학, 종양학)였고, 14명의 참가자는 외과 또는 시술 지배적 전문 분야(예: 정형외과, 산부인과 및 산부인과 및 응급의학)였다. 농촌, 북부, 원격 지역사회에서 실습한 참가자(20명)  또는 캐나다 브리티시컬럼비아주의 대도시(22명)에서. 임상 감독관 역할의 모든 경험을 공유했습니다.또한 17명의 참가자가 리더 역할의 경험을 공유했습니다. 리더십 역할의 경험에는, 큰 리스크의 진행에 관한 의사결정에 공헌했습니다. 대다수의 사람들은 그들의 리더 역할을 'programme director'라고 명명했고, 우리는 그들의 정체성을 보호하기 위해 이 용어를 모든 리더 역할을 지칭하는 데 사용합니다.

Between May 2019 and January 2020, we recruited and interviewed an additional 20 physicians (7 male) of whom 13 were from surgical or procedure-dominant specialties. The final participant sample thus consisted of 42 participants (11 male) representing 17 specialities/subspecialties. A total of 28 participants were from medical specialities (e.g. family medicine, internal medicine, psychiatry, medical oncology), and 14 participants were from surgical or procedure-dominant specialties (e.g. orthopaedics, obstetrics and gynaecology and emergency medicine). Participants practised in rural, northern and/or remote communities (20); or in large metropolitan cities (22) in the province of British Columbia, Canada. All shared experiences from a clinical supervisor role; 17 participants also shared experiences from a leadership role that involved contributing to high stakes progression decisions. The majority named their leadership role ‘programme director’, and to protect their identity, we use this term to refer to all of the leadership roles.

2.3 데이터 수집
2.3 Data collection

CGT 방법론에 따라 인터뷰 프로세스에 대해 반복적인 접근법을 취했습니다. 처음 22번의 인터뷰에서는 임상 작업장에서 실적이 부진한 연수생을 감독한 경험을 모집하는 것으로 시작했습니다. 'incompetent'과 'incompetence'라는 용어의 사용에 대한 부정적인 반응으로 인해, 우리는 다양한 용어를 시도하고, 성과가 낮은 훈련생에 대한 대화를 이끌어내기 위해 촉구했습니다. 고군분투하는 훈련생과 저조한 훈련생에 대한 충분한 데이터가 있었기 때문에, 후자의 20개의 인터뷰는 실패를 고려해야 할 상황을 가장 많이 나타낼 가능성이 있는 극단적인 성과 저하의 사례에 초점을 맞췄습니다. 인터뷰 질문은 참가자들을 초청하여 의대생과 레지던트들을 감독한 경험을 공유하도록 했다. 이들은 상당히 성과가 저조하고 광범위한 교정조치가 필요했으며 징계조치를 발동했거나 프로그램 탈퇴를 요구받았어야 했다.

Following CGT methodology, we took an iterative approach to the interview process. We began by inviting experiences with supervising underperforming trainees in the clinical workplace in the first 22 interviews. Due to negative reactions to our use of the terms ‘incompetent’ and ‘incompetence’,35 we tried various terms and prompts to elicit conversation on underperforming trainees. As we had sufficient data describing struggling and underperforming trainees, the latter 20 interviews focused on the more extreme cases of underperformance that had the most potential to be indicative of situations where failure should be considered. Interview questions invited participants to share their experiences supervising medical students and residents who profoundly underperformed, required extensive remediation, invoked disciplinary actions or were asked (or should have been asked) to leave the programme.

분석은 반복적 사이클을 통해 데이터 수집에 정보를 제공하였다. 부록 1에서 설명한 바와 같이, 반구조적인 인터뷰 가이드의 4회 반복은 매우 성과가 없는 훈련생에 대한 풍부한 설명을 도출하는 데 초점을 맞추고 있습니다. 

  • 슈퍼바이저에게 미치는 실질적인 영향에 대한 대화를 강조하기 위해 
  • 불합격 훈련생에 대한 경험을 말로 표현하도록 감독관에게 장려하고 
  • 불합격 또는 불합격하지 않은 훈련생에 대한 설명을 초대합니다. 

인터뷰는 평균 51분(37~68분 범위)을 전화 또는 직접 실시했으며, 음성녹음, 전문 전사자에 의해 기록되고 분석 전에 비식별되었다. 

Analysis informed data collection through iterative cycles. As depicted in Appendix 1, the four iterations of the semi-structured interview guide evolved from a focus on eliciting rich descriptions of profoundly underperforming trainees,

  • to emphasising conversation about the substantial impacts on the supervisor,
  • to encouraging supervisors to put their experiences with failing trainees into words and
  • through to inviting descriptions of failing, or not failing, underperforming trainees.

Interviews averaged 51 min in duration (ranging from 37–68 min) were conducted by telephone or in-person, audio-recorded, transcribed by a professional transcriptionist and de-identified prior to analysis.

2.4 데이터 분석
2.4 Data analysis

  • 불합격 훈련생과 관련된 최초 22개 면접에서 식별된 예비 코드는 후속 면접을 위한 데이터 수집에 사용되었습니다.
  • 주요 주제와 개념에 라벨을 붙인 초점focused 코드를 식별하기 위해 분석된 3~6개의 인터뷰 사이클마다 후속 20개의 인터뷰 분석이 반복되었다.
  • 전체 연구팀은 매 주기 후에 만나 인터뷰 데이터에 대해 논의하고, 테마를 식별하며, 감독관의 Failure 인식과 인식된 failure에 대한 대응에 라벨을 붙인 진화하는 코드를 수정했다.
  • CGT에 따르면, 우리는 참가자가 공유한 콘텐츠, 사용하는 언어, 그리고 그 정보를 공유하는 방법에 주의를 기울임으로써 발전된 참가자의 관점에 대한 우리의 이해에 라벨을 붙임으로써 데이터에서 무슨 일이 일어나고 있는지를 정의하기 위해 코드를 사용했다.40 
  • 상세한 언어 분석을 완료하지는 않았지만, 우리는 문자록의 두드러진 언어적 특징을 코드화하고, 음성으로 볼륨, 망설임, 감정을 코드화하기 위해 녹음을 들었다.
  • 42개의 스크립트 세트 전체에 걸쳐 지속적인 비교를 사용하여 코드를 재방문, 확장 및 개선했습니다.
  • 코딩 프레임워크는 인터뷰 38회 이후 데이터를 충분히 요약하였고, 마지막 4개의 인터뷰는 식별된 개념을 보강, 상세화, 명확화하는 데 사용하였다. 
  • 그런 다음 이론 코드를 식별하기 위해 집중된 코드로 나타나는 링크와 패턴을 논의했다. 이론 코드는 데이터를 넘어서도 여전히 기초가 되는 해석을 나타냅니다.40
  • The preliminary codes identified in the first 22 interviews that pertained to failing trainees were used to inform data collection for the subsequent interviews.
  • Analysis of the subsequent 20 interviews continued iteratively with each cycle of 3–6 interviews analysed to identify focused codes that labelled the major themes and concepts.
  • The full research team met after each cycle to discuss the interview data, identify themes and modify the evolving codes that labelled supervisors' recognition of failure and responses to recognised failure.
  • As per CGT, we used the codes to define what was happening in the data by labelling our understanding of the participants' perspectives that was developed by attending to the content that they shared, the language they used and how they shared that information.40 
  • Although we did not complete a detailed linguistic analysis, we did code for salient linguistic features41 in the transcripts and listened to the recordings to code for volume, hesitation and emotion in the spoken words.
  • We used constant comparison across the entire set of 42 transcripts to revisit, expand and refine the codes.
  • The coding framework sufficiently summarised the data after 38 interviews with the last 4 interviews reinforcing, elaborating and clarifying the identified concepts.
  • We then discussed the links and patterns represented by the focused codes to identify theoretical codes. The theoretical codes represent an interpretation that extends beyond, and yet is still grounded in, the data.40

CGT에서, 의미는 연구자들의 다양한 관점과 참여자 및 데이터와의 상호작용을 통해 구성된다. 따라서, 우리 팀은, 지도·임상 학습 상황(AG, CW, LL), 평가·평가자(AG, SS-S), 사회인지(AG), 언어학(LL), 대학원장(CW)으로서 연수생을 감독하고, 감독자를 감독하는 생활 경험(생계)에 의한 전문지식 분석을 실시했습니다.

In CGT, meaning is constructed through the differing perspectives of the researchers and through their interaction with the participants and the data.40 As such, our team engaged with analysis drawing on their expertise with studying supervision and clinical learning contexts (AG, CW, LL), assessment and raters (AG, SS-S), social cognition (AG), linguistics (LL) and lived experience supervising trainees and overseeing supervisors as postgraduate dean (CW).

토론에서는 각 연구자의 관점이 데이터 해석에 어떻게 기여했는지에 대한 성찰성reflexivity이 포함되었다. 예를 들어, 팀의 한 구성원은 처음에 학습자로서, 그 다음에는 감독자로서, 그 다음에는 리더로서 의학 교육을 경험했습니다. 그는 학습자로서는 실패나 교정을 경험하지 않았지만, 감독자로서, 그리고 교육 프로그램의 감독 책임을 지는 리더로서도 경험했습니다. 그는 자신의 경험을 연구팀과 공유했고, 우리는 학습자를 지원하는 교육 책임과 안전한 경우에만 학습자가 진보할 수 있도록 하는 사회적 책임 사이의 긴장에 대해 정기적으로 성찰했다. 팀의 비임상사들은 이러한 긴장감을 더욱 맥락화하기 위해 환자와 환자의 가족으로서의 기대와 교육자로서의 경험을 성찰했다.

Discussions included reflexivity on how each researcher's perspective contributed to interpretation of the data. For example, one member of team has experienced medical training first as a learner, then as a supervisor and then as a leader. While he did not experience failure or remediation as a learner, he did as a supervisor and even more so as a leader with responsibility for oversight of training programmes. He shared his experiences with the research team, and we reflected regularly on the tension between the educational responsibility to support learners and the social responsibility to ensure that learners only progress if it is safe for them to do so. The non-clinicians on the team reflected on their expectations as patients and as family members of patients, as well as on their experiences as educators, to further contextualise this tension.

성찰성 토론은 집행된 연구 방법에 대해서도 정밀히 조사했다. 예를 들어, 우리는 음성 인터뷰 질문이 참가자들이 특정 언어를 사용하거나 특정 반응을 이끌어내지 않았는지 확인하기 위해 녹취록을 검토했다. 메모는 데이터 수집에 관한 결정을 기록하고 감사 추적 역할을 하기 위해 사용되었습니다. 분석 과정 동안 데이터에 대한 우리의 진화된 이해를 기록하기 위해 메모를 사용했습니다. 데이터 관리 및 코딩에는 NVivo 소프트웨어 버전 11(QSR International Pty Ltd, Chadstone, Victoria, Australia)을 사용했습니다.

Reflexivity also included scrutiny of the enacted research methods. For example, we reviewed transcripts to verify that the spoken interview questions did not lead participants to use particular language or elicit specific reactions. We used notes to record decisions regarding data collection and to serve as an audit trail. We used memos to record our evolving understanding of the data during the analytic process. We used NVivo software version 11 (QSR International Pty Ltd, Chadstone, Victoria, Australia) for data management and coding.


참가자는 전문을 내과계열의 경우 'M' 또는 외과계열 또는 시술중심 계열의 경우 'S'로 표기하고, 그 뒤에 면담 순서를 나타내는 번호를 붙인다.

Participants are referred to by a letter to indicate their specialty as ‘M’ for medical or ‘S’ for surgical or procedure-dominant followed by a number to indicate their interview sequence.

3 결과
3 RESULTS

상사의 경험에 따르면, 실패를 인식하는 것은 실패를 나타내는 '의심할 수 없는' 직장에서의 성과 실패 패턴을 감지함으로써 '의심의 이점'을 극복하는 것이다. 우리는 우리의 조사와 관련된 세 가지 측면에 대한 조사 결과를 제시한다.

  • 먼저, 실패를 나타내는 연습생의 performance 패턴patterns 을 기술함으로써 실패로 인식되는 것을 제시한다.
  • 그런 다음, 성적 부진한 훈련생과 함께 작업한 경험과 실패를 인식하면서 감독관들이 어떻게 감정을 표현하는지express emotion  제시한다.
  • 마지막으로, 실패에 대한 인식이 슈퍼바이저와 슈퍼바이저-트레이닝의 관계를 넘어 동료와의 검증 및 합의 구축building consensus 에 어떻게 영향을 미치는지 제시합니다.

According to supervisors' experiences, recognising failure involves overcoming the ‘benefit of the doubt’ by detecting patterns of failing performance in the workplace that are ‘beyond a doubt’ indicative of failure. We present the findings for three interrelated aspects of our inquiry:

First, we present what is recognised as failure by describing the patterns of trainee performance indicative of failure.

Then, we present how supervisors express emotion while recounting their experiences of working with underperforming trainees and recognising failure.

Finally, we present how recognition of failure extends beyond the supervisor and supervisor-trainee relationship to involve verifying and building consensus with colleagues.

3.1 패턴 식별
3.1 Identifying patterns

의료 및 외과 전문 분야의 감독자들은 성적이 저조한 훈련생들을 처음 접했을 때, "기본적인" 기술인 "최소한의 일"을 할 수 없는 고년자 레지던트들을 "이해할 수 없었다"고 불신하는 단계를 묘사했다(S35). 프로그램 디렉터는 감독관이 "교대 2일째"에, 예를 들어 레지던트 프로그램에 전념하고 있는 지적으로 여겨지는 훈련생이 실적이 저조하다는 것을 알게 되었을 때 "믿을 수 없다"고 말할 것이라고 말했습니다(M26). 
나는 앉아서 환자들에게 그녀의 설명을 들었다. 나는 부정확한 정보에 놀랐다. 정보의 전달 방법에 놀랐다(S30). 그들은 이 단계에서 훈련생에게 의심을 품게 되었지만, 그들이 보고 있는 것을 이해하려고 노력했기 때문에 관찰 내용을 문서화하는 것을 거부했습니다.

Supervisors across medical and surgical specialties described a phase of disbelief when first encountering underperforming trainees: ‘it's just baffling to me’ when upper year residents cannot do ‘some bare minimum things’ that are ‘basic’ skills (S35). Programme directors shared that supervisors called them “on day two of the rotation and they will say ‘I just can't believe this’” (M26) when they discovered, for example, that a trainee who was considered to be intelligent and dedicated to the residency programme was underperforming: ‘I sat down and listened to her explanation to the patients. I was surprised with the inaccuracy of information. I was surprised with the way the information was delivered’ (S30). They gave the trainee the benefit of doubt during this phase and resisted documenting observations as they were trying to make sense of what they were seeing:

'제가 말씀드렸듯이, 그가 과도기를 거치고 적응하는 것을 제가 좀 더 일찍 제안했던 적이 있습니다. 왜냐하면 저는 그것이 제가 공식적인 평가를 해야 할 기준을 충족시키지 못한다고 느꼈기 때문입니다. 우리는 항상 그 후에 이야기했지만, 그 상호작용을 꼭 문서화하지는 않았다.' (S42)
‘There were some times early on where I kind of put it up to, as I say, him going through that transition phase and kind of settling in, if you will, because I just felt like it didn't quite meet the bar that I needed to trigger a formal assessment. We always talked about things afterwards but not to necessarily write it down on paper with those interactions.’ (S42).


[underperformance를 불신하게 하는 징후]에서 [실패를 인식하는 것]으로의 전환하는 과정에는 반드시 [실패를 보여주는 underperformance의 식별]을 감독관이 수행해야 하는 필요성이 포함된다. 이들은 사고 발생 빈도, 일관성 및 규모를 수치화하여 고장을 특징지었다. 
「내가 몇번이나 보여주려고 했던 방식대로 하지 않는 것을 반복한다」(S35). 프로그램 디렉터는 피드백을 받았음에도 불구하고 여러 감독관의 보고서를 통해 실패를 수량화함으로써, 종종 서로 다른 맥락으로 다른 사건을 기술함으로써 유사한 특징을 보였다. 즉, '반복적인 순환이 그와 함께 어려움을 겪고 있다'(S28), '나는 사람들이 [프로그램으로 보고한 모든 구두 불만을 정리했다.이 10쪽짜리 편지를 썼어' (M29) 그 때문에, 「패턴을 찾을 수 없었다」(S25)는 「실패는 한 번만 일어난 것이 아니다」(S25)와 함께, 「어떤 이유에서는 말할 수 없다」(S30), 「감독이 불가능하다」(M36), 「완전히 이해할 수 없다」(M6), 「배우는 능력이 없다」(S34), 「절대로 배우지 못할 것이다」(10)라고 판단한다.

The shift from disbelieving signs of underperformance to recognising failure necessarily includes the need for supervisors to identify underperformance that is representative of failure. They characterised failure by quantifying its frequency, consistency and magnitude across incidents: ‘repeatedly not doing something the way that I tried to show them numerous times how to do it’ (S35). Programme directors similarly characterised failure by quantifying it through reports from multiple supervisors, often in different contexts, describing different incidents, over time, despite receiving feedback: ‘repeated rotations having difficulty with him’ (S28) and ‘I compiled all the verbal complaints that people had [reported to me as program director] and wrote him this 10 page letter’ (M29). Therefore, recognising failure hinged on finding ‘a pattern, it didn't just happen once’ (S25) along with a determination that the trainee is ‘for some reason unteachable’ (S30), ‘unsupervisable’ (M36) and ‘completely unfixable’ (M6) because ‘they just couldn't do it’ (S34) and ‘just couldn't learn’ (M10) ‘so they're not going to learn it’ (M13).

실패가 어떻게 인식되는지에 대한 설명에서 압도적인 증거, 엄청난 오류외부인으로부터 얻은 통찰이라는 세 가지 패턴을 식별했다. 

We identified three patterns within the descriptions of how failure was recognised: overwhelming evidence, egregious error and outsider's insight.

[압도적인 증거 패턴]은, 「지속적인 곤란」과 「부적절한」기술의 반복 시연(S24)을 특징으로 하고, 「그때까지 빵과 버터의 아이템으로서 익혔어야 했다」(M10). 패턴은 특정 도메인으로 제한되거나 글로벌할 수 있습니다. 
「전면, 준비중도 아니고, 관여중도 아니고, 기술력도 없다」(S35). 이것은 감독관과 프로그램의 압도적인 증거의 패턴이었다: '나와 모든 사람들이 그와 그의 능력에 대해 매우 우려할 정도로 그의 일을 정말로 하기에는 다면적인 실패가 있었다.' (S34).

The overwhelming evidence pattern features ‘persistent difficulty’ and ‘repeated demonstration of inadequate’ skills (S24) that the trainee ‘should've learned by then as a bread and butter item’ (M10). The pattern could be restricted to particular domains or be global: ‘it's the whole picture, it's not being prepared, it's not being engaged, it's not having any technical skills’ (S35). This was a pattern of overwhelming evidence compelling action from the supervisor and the programme: ‘there was a multifaceted failure on his part to really do the job to the point where I and everyone was very concerned about him and his abilities [… he was] the one we failed.’ (S34).

[심각한 오류 패턴]에서는 failure 인식은 당황스러운 오류 또는 누락의 발견으로 촉발되었습니다. 핵심 기술을 수반하는 대규모 사고 하나만으로도 이전에 성적이 저조하다고 분류되지 않은 훈련생에게도 실패를 나타내는 데 충분할 수 있습니다. 
「긴급하게도, 실제로는 나쁜 오퍼레이터는 아니고, 매우 좋은 사람이었습니다만, 나에게 있어서 너무나 명백하고 괴상한 것을 빠뜨린 것은, 큰 레드 플래그가 되어 난데없이 나타난 것입니다」(S37). 마찬가지로, 몇 가지 작고 용서할 수 있는 실수 뒤에 일어난 한 번의 터무니 없는 실수는 실패를 의미했다. 왜냐하면 그것은 환자의 안전을 위태롭게 하는 그들의 지식, 기술 또는 이해의 상당한 차이를 드러냈기 때문이다. '커리어-데미징' 세부사항(S37)이 훈련생들을 식별할 수 있기 때문에 여기에 구체적인 예를 포함할 수는 없지만, 이 감독관은 당신의 전문이 비행기 재건에 관한 것일 때 날개가 없다는 것을 깨닫지 못한 채 '본질적으로 날개 없는 비행기를 만드는 것과 같다'고 계속해서 설명했다. 훈련생이 자신의 행동의 중요성을 인식하지 못하는 것 같았을 때 실패를 문서화할 필요성이 증가하였다. 
"당신이 수술을 하려고 할 때 출혈을 일으켰을 때, 그는 '오야, 하지만 그건 정상이야'라고 말할 것입니다."(S39). 마찬가지로, 감독관들은 실수에 대해 적절한 후회나 후회를 보이지 않을 때 훈련생을 낙제시키는 과정에 더 관여하는 경향이 있다고 설명했습니다.
"[절대 이벤트에 대한] 피드백을 받는 것은 경솔한 성격이었기 때문에 "오 마이 갓, 내가 그렇게 했다는 것을 믿을 수 없어, 정말 미안해" (S25)가 아니었다." 하지만, 인식 부족과 반성의 부족은 드물고 예상치 못한 것으로 묘사되었다.

In the egregious error pattern, recognising failure was triggered by the discovery of a disconcerting error or omission. A lone incident of great magnitude that involved a core skill could be sufficient in indicating failure, even for a trainee who had not been previously classified as underperforming: ‘surgically, they were actually not a bad operator, and they were actually a very nice person, but missing something so obvious and egregious to me was a huge red flag and came out of nowhere’ (S37). Similarly, a single egregious blunder that followed several smaller and excusable mistakes signalled a failure, because it too revealed a substantial gap in their knowledge, skills or understanding that risked patient safety. Specific examples cannot be included here because the ‘career damaging’ details (S37) could identify the trainees, but this supervisor went on to explain that ‘essentially it's the same as building an airplane without wings’ without realising that it does not have wings when your speciality is all about rebuilding airplanes. The necessity to document failure was increased when the trainee seemed not to recognise the significance of their actions: “‘remember when you got into [iatrogenic] bleeding when you were trying to do the operations' and he would be like ‘oh ya, but that's normal’” (S39). Similarly, supervisors described being more inclined to engage in the process of failing a trainee when they did not show appropriate regret or remorse for the mistake: “it was this flippant nature to getting the feedback [on a never-event] so it wasn't like ‘oh my goodness I can't believe I did that, I'm so sorry’” (S25). However, lack of recognition and lack of remorse were both described as rare and unexpected.

세 번째 패턴은 다른 부서의 동료나 연수생 등 [외부인이 상사에게 귀찮은 경험을 털어놓음으로써 생겨난 인식]이며, 상사는 자신이 '미처 몰라보았던' 결손에 불을 붙였다(S42). 외부인의 통찰력은 레지던트가 겪고 있는 특별한 어려움에 관심을 끌었다. '[누락]은 주치의들에게 매우 걱정거리였다. 특히 내가 참석한 것은 아니었다.- '그거 알아, 이 남자는 그의 행동 때문에 안전하지 않다'고 말한 것은 가정의사였다(S38). 직접 경험해 본 사람이 즉흥적으로 한 말은 이전에 간과되었던 패턴을 제자리걸음을 하게 하고 조치가 필요하다는 것을 확인하는 듯했다. 
"이것은 우리에게 약간의 스펙트럼을 보여주는데 큰 도움이 되었고, 그가 더 많은 피드백과 지원을 필요로 하는 영역을 실제로 가지고 있다는 것을 인식시켰다."(S42)
The third pattern involved recognition sparked by having an outsider, like a colleague from another department or a trainee, divulge a troublesome experience to the supervisor that illuminated a deficit that they had been ‘a little bit blind to’ (S42). The outsider's insight drew attention to a particular difficulty the resident was grappling with: ‘[the omission] was so concerning to the attendings—it wasn't me [an obstetrics attending] specifically—it was a family doctor that said ‘you know what—this guy is unsafe’ because of his behaviour’ (S38). The off-the-cuff comment from someone with first-hand experience seemed to cause the previously overlooked pattern to click into place and to confirm that action needed to be taken: ‘it really helped show us a little bit of the spectrum and recognise that we really did have an area that he needed increased feedback and support’ (S42).

 

3.2 감정의 표현
3.2 Expressing emotion

우리가 감독관에게 그들이 처음 깨달은 것이 실패라는 것을 깨달았을 때, 그들은 그것을 정확히 지적할 수 없었고 말로 표현할 수 없었다: '완전히 기억할 수 없다. 잠깐... 하지만, 한 순간은 완전히 기억나지 않아요, 음... 그리고, 제 말은..." (M36) 예를 들어, 고객이 현재 인식하고 있는 것이 문제가 되어, 향후의 대처가 필요하게 될 가능성이 있다고 생각하는 방향으로의 전환의 힌트가 포함되어 있습니다.
When we pressed supervisors to go back to the moment when they first realised that what they were noticing was failure, they could not pinpoint it and could not put it into words: ‘I can't totally remember. One moment … but, you know, I can't totally remember one moment, ummm … and, you know, I mean …’ (M36). There were examples that contained hints of a shift towards thinking that something that they were noticing now may become problematic and need to be dealt with in the future:

'… 휴무일이나 산발적인 일회성 문제라기보다는, 개인적인 문제점에 가까웠기 때문에 계속 진행 중인 일이 아닐까 걱정했어요. 그래서 모르겠어요. 그녀는 이런 종류의 것들이 그녀의 길을 따라 올라오고 적응하면서 보상하고 배울 수 있을지도 모른다. 아니면, 더 좋은 용어가 없기 때문에, 기본적으로 사람들을 화나게 하고, 결국엔 부정적인 피드백과 프로그램에 의해 뭔가 더 큰 조치가 취해진다는 의견을 충분히 얻을 수도 있습니다.' (M13)
‘… with her I would worry that it's going to be something ongoing because it seemed more of a personality source of the problem than just an off-day or a sporadic one-time kind of thing. So, I don't know. She might be able to compensate and learn from these type of things as they come up and adjust in her way through. Or she might, you know, for lack of a better term basically piss people off all the way through and eventually gets enough negative feedback and comments that something—some bigger measure—is taken by the program.’(M13)

위의 인용문에 포함된 문구는 유일한 용도가 아닙니다. 「이 때문에 일을 망친 사람의 예」(M15)는, 「정말 좌우를 망쳤다」(S30)와 같이, 지극히 성적이 나쁜 훈련생의 묘사를 부드럽게 강조했다. 또, 「내가 왜 더 이상 이 일을 하고 있는지」(M27) 등, 「그것이 얼마나 화가 났는지」(M41) 등, 낙제하는 연습생을 감독하는 것에 대한 반응을 나타내는 데도 사용되었습니다. 일부는 갑자기 말을 끊고 어조와 단어 선택에 대해 사과했다. 
'… 그는 정말 심한 설사를 하고 있었습니다. 미안합니다만, 너무 심한 것 같습니다만, 그는 단지 입을 다물고 싶지 않을 뿐입니다」(M29) 또, 참가자는, 불합격의 연수생에 대한 경험을 이야기하면서, 목소리를 높였다. 예를 들어, 어떻게 연습생이 부정직하다고 판단했는지에 대해 이야기하면서, 「대부분의 경우는 거짓말을 계속하고 있을 뿐이고, 이것은 어려운 일입니다.」라고 하는 것은, 내가 바로 여기 있는 것 같기 때문에, 내가 모른다고 생각하는 것입니까(S39). 그들은 기만과 조작을 묘사할 때 목소리를 높였다. "저는 그들이 어디에 있는지, 글쎄요, 그들은 그저 독약처럼 병적인 존재라고 생각할 수 있습니다." 성격은 "오 마이 갓, 어떻게 당신은 의학에 들어갔나요?"와 똑같습니다." (M14) 또, 「감시」(M41)을 포함한 생생한 이미지를 사용해, 실적이 현저하게 저하하는 연수생이 자신에게 미칠 수 있는 영향을 전달했습니다.

The expletive in the above quote was not an isolated usage. Mild swearing accentuated the descriptions of profoundly underperforming trainees: ‘an example of somebody who has screwed up because of this’ (M15) as in ‘really screwing up left and right’ (S30). It was also used in expressing their reaction to supervising a failing trainee including: ‘wondering why the hell am I doing this anymore’ (M27) because of ‘how much that pissed me off’ (M41). Some abruptly stopped midsentence to apologise for their tone and choice of words: ‘… he had this very loquacious diarrhoea that would just—sorry, I'm sounding really awful, aren't I—but, he would just like not shut up …’ (M29). In addition, participants raised their voices while describing their experiences with failing trainees. For example, while sharing how they determined that a trainee was being dishonest: ‘most of the time they just keep lying—and this is the hard thing—and I find this so hard myself because I'm like I'M RIGHT HERE, DO YOU THINK I DON'T KNOW?’ (S39). They raised their voices when describing deception and manipulation: ‘I can think of 2, maybe 3 trainees, where they're—I don't know, pathological, like they're just poison—the personality is just like ‘OH MY GOD, HOW DID YOU GET INTO MEDICINE’ kind of thing’ (M14). They also used vivid imagery including allusions of being ‘persecuted’ (M41) to convey the impact that profoundly underperforming trainees could have on them:

'제가 선고받은 형량을 말씀드리죠. 직장에서 누군가를 지켜보고, 내내 움츠리고, 누군가 제 환자를 괴롭히는 것처럼 느껴지고, 말을 걸면 화가 나죠.' 이것이 제가 가장 두려워하는 것입니다. 그에게 6개월 동안 가르쳤다면 아마 정맥을 열었을 것입니다.'(36).
‘I'll tell you what I'm sentenced to—a six month period of time where in my workplace I'm watching someone, cringing the whole time, feeling as though someone is bullying my patients and if I talk to them they get angry with me—this is my worst fear […] and I would've probably opened a vein if I had to teach him for six months.’ (M36)

실패를 인식하는 구체적인 경험을 공유하면서, 가장 흔히 언급되는 감정은 좌절감이었다
'잘못된 결정을 내린 연습생에게 미안하지 않다'임상적 판단은 시간이 따라오는 것 같아요자신의 잘못을 깨닫고 아픈 환자에게 도움을 청할 수 있는 능력이 없는 것에 실망했다고 생각합니다.(M7) 실패하는 훈련생을 감독하는 것이 어떤 것인지 직접 물었더니 좌절감이 다시 일반적인 대답으로 나타났습니다. 
'답답하다, 좀 뜬다' (M18). 가벼운 욕설과 그 경험을 떠올릴 때 사용하는 언성이 합쳐진 것은 분노를 나타낸다는 것이 우리의 해석이었다.
The emotion that was most commonly named while sharing specific experiences of recognising failure was frustration: ‘I don't begrudge the trainee for making the wrong decision—I think clinical judgement, that comes with time—I think I was frustrated that they didn't have the ability to see the error in their ways and to call for help for a sick patient’ (M7). When we asked directly what it was like to supervise trainees who were failing, frustration again appeared as a common response: ‘it's frustrating, it's kind of eye-opening’ (M18). Our interpretation was that the combination of mild swearing and raised voices used while recalling those experiences was indicative of anger.

참가자들이 그들의 경험을 공유하는 또 다른 측면은 그들이 사용하는 언어의 뚜렷한 변화였다. 감독관은 현재의 확실한 상태에서 불합격하는 훈련생을 거칠고 분명한 말로 묘사하는 경향이 있었습니다. 
「재해였다」(M2) 「재해다」(M26) 「위험했다」(S28), 「전혀 부적절했다」(S30). 우리의 분석 결과, 그들이 자주 선택한 표현에는 부스터를 사용하는 것이 포함되어 있는 것으로 확인되었습니다. Hyland에 따르면, 부스터는 발언에 대한 확신, 자신감 및 헌신을 표현하기 위해 사용되는 커뮤니케이션 전략이며, 특정 가정이나 결론에 대한 지지를 설득력 있게 요청하기 위해 사용될 수 있다. 우리는 이 단락에서 제시된 인용문에 사용된 부스터의 예에 밑줄을 그었다. 감독관들은 '이 때문에 내가 소송을 당할까 봐' 고심했습니다. (M20) 정말 큰 실수였고 저는 정말 화가 났습니다.

Another aspect of how participants shared their experiences was a distinct change in the language that they used. Supervisors tended to describe failing trainees from a current state of certainty using harsh, unequivocal language: ‘It was a disaster’ (M2) ‘he's a disaster’ (M26) ‘he was dangerous’ (S28) and ‘entirely inappropriate’ (S30). Our analysis identified that their choice of phrasing frequently included the use of boosters. According to Hyland, boosters are a communicative strategy used to express conviction, confidence and commitment to a statement and may be used to persuasively solicit support for particular assumptions or conclusions.41 We have underlined examples of the boosters used within the quotes presented in this paragraph. Supervisors grappled with ‘fearing that I'm going to get sued because of this [omission by the resident …] was a really big miss and I was really upset by it’ (M20).

드물게 수습생의 행동이 감독자를 법적 절차에 참여시키는 '대형 소송'(M29)을 초래하기도 했다. 그러나, 그들은 수습생을 결정하는 것이 '환자 안전의 표준을 충족하지 못하고, 실제로 해를 끼치고 있다'고 강조하였다(S25). 실패에 대한 문서화가 필요했다. 
'환자에게 완전히 위험한 사람은 지나칠 수 없다'(M14). 그리고 환자와 직업에 해를 끼치지 않기 위해 실패를 보고하는 것이 그들의 의무가 되었다: '그것은 나의 의무이다. 즉, 해야 합니다. 그렇지 않으면 저는 학생을 실망시키고 public을 실망시키는 것입니다.(M16) 왜냐하면 '환자의 안전에 관한 우리의 책임은 명백하기 때문입니다'(M41) 변경 후, 유일하게 적절한 옵션은 드물고 어려운 옵션임에도 불구하고 '이 옵션에는 플래그를 붙여야 한다'(M31)였다. 
'내 커리어에서 나는 한 사람을 유급시켰으며, 그들은 정말 유급해야 한다고 생각한다.' (M36)

In rare cases, the actions of a trainee ‘prompted a huge lawsuit’ (M29) that involved the supervisor in legal proceedings. However, they emphasised that determining a trainee was ‘not meeting a standard of patient safety—it's actually causing harm’ (S25) necessitated documentation of failure: ‘I can't pass someone if they're downright dangerous to the patient’ (M14). It then became their obligation to report failure to prevent harm to patients and the profession: ‘that is my duty. That is, I have to. That's—otherwise I am letting down the student and I am letting down the public’ (M16) because ‘it's obviously our responsibility in terms of the safety of our patients’ (M41). After making the shift, the only appropriate option was ‘this one had to be flagged’ (M31), even though it was a rare and difficult option: ‘in my career I think I've failed one person and they really needed to be failed’ (M36). Such conviction may have been needed because reporting failure, and even underperformance, could come at a cost, such as having the trainee file ‘a complaint’ (M17) against them.

이러한 확신은 보고의 실패나 실적 저하는 수습생에게 '고발'(M17)을 하게 하는 등의 대가를 치르게 될 수 있기 때문에 필요했을 수 있다. 훈련생이 수행능력이 저조할 수 있다는 것을 처음 발견한 것에 대한 의구심을 채운 것과 대조적으로, 훈련생이 프로그램을 진행해서는 안 된다는 것을 인식한 것에 대한 설명은 확실성, 확고한 언어, 강렬한 감정, 그리고 잠재적인 피해를 방지해야 한다는 의무감으로 가득 차 있었다. 예측 가능한 비용에도 불구하고 조치를 취해야 합니다.
In contrast to the benefit of the doubt that filled their descriptions of first discovering that a trainee might be underperforming, the descriptions of having recognised that a trainee should not progress in the programme were filled with certainty, firm language, intense emotion and a sense of duty to prevent harm that held the potential to mobilise action despite foreseeable costs.

4 컨센서스 구축
4 BUILDING CONSENSUS

지금까지 우리는 상사에게 초점을 맞추어 실패에 대한 인식을 개인의 마음에서 주로 일어나는 것으로 제시해 왔지만 실패에 대한 인식에는 동료와의 사회적 상호작용도 포함되어 있었다. 특히 실패를 인식하기 위해서는 슈퍼바이저가 본 내용을 다른 사람과 논의하여 그 해석을 이해하고 검증해야 합니다. 그 후 실패가 인정되어 연수생의 다음 단계로 넘어가는 과정이 변경되었기 때문에 감독관, 부서 또는 위원회의 그룹 내에서 여러 사람의 합의가 필요했다. 이제 실패를 인식하는 [집합적 경험]에 초점을 맞춥니다. 프로그램 디렉터는, 「우리는 그것을 용인하지 않는다」(기간, 완전 정지)라고 하는 결정을 내린 시점(S34)에 이르렀다고 설명했습니다.왜냐하면, 「충분한 병리학적 문제가 될 것 같다」라고 하는 경우에는, 통상, 연수생을 포함한 모든 사람이 졸업하는 것보다, 그것들을 삭제하는 것이, 실제로 도움이 되기 때문입니다(S37).. 다만, 복수의 슈퍼 바이저로부터의 합의와 문서화가 필요했습니다.
Up until this point we have focused on the supervisor and presented recognition of failure as something that occurs mostly in the minds of individuals but recognising failure also included social interactions with colleagues. In particular, recognising failure involved supervisors discussing what they were seeing with others to make sense of it and to verify their interpretations. After that, having failure become recognised, so that a trainee's progression to the next phase was altered, required consensus across multiple people within a group of supervisors, department or committee. We now turn our focus to the collective experience of recognising failure. Programme directors described departments and committees reaching a point where they had decided ‘we're not going to tolerate it—period—full stop’ (S34) because when it is ‘pathological enough it's going to be a serious issue then it usually is actually better served for everybody, including the trainee, to remove them than to graduate them’ (S37). However, it required agreement and documentation from multiple supervisors:

'위험한 환자 치료를 제공할 수 있을 것 같은 정말 배신적인 훈련생에게 우리 모두는 책임감을 가지고 있고 종종 단결해서 그렇게 한다.' 즉, 우리는 의사 그룹 사이의 합의를 구한다는 것입니다. 그래서 '이 사람이 이 일을 했다'고 말하는 것은 단지 하나의 스승이 아닙니다. '너도 일주일 동안 그런 일이 있었니?' '응, 나도 그랬고 다른 동료도 그랬다.' 그래서 우리 셋이서 다 같이 하면 숫자에 있어서 강점이니까, 사실 의문을 가질 수가 없어. 만약 그것이 단지 어떤 것의 일회성이라면, 그것은 확실히 밝히기 어려울 것입니다.(S40)

‘For the truly treacherous trainee that I think would provide dangerous patient care, we all have that responsibility to stand forward and we often do that united. Meaning we look for consensus among our physician group so it's not just one preceptor saying ‘this one did this.’ It's a ‘did you have something like that in your week?’ ‘Yes, I had something too and so did one of my other colleagues', okay, so the three of us if we put it all down together, it's a strength in numbers, we can't really be questioned. If it's just a one-off of something, then it could be really hard to pin down.’ (S40)

이러한 실패에 대한 집단적 인식은 보다 면밀한 관찰이 필요한 훈련생에게 주의를 환기시키는 데 도움이 되었다. 그러나 '모두가 눈치채고 있었다'(M41)는 연수생의 평판이 감독 및 평가 방식에 영향을 미칠 수 있음을 인정하였다. 성적 부진한 연수생들은 감독 강화를 위해 감독자들 사이에서 논의되었다. 이것은 동료가 '교사와 토론하고 다른 교사들에게 이것이 일회성이 아니며 이 사람이 잠재적으로 위험하다는 것을 확실히 하기 위해'를 시작했을 때 비공식적으로 행해졌다(M12). 또한 심각한 사건에 대한 대응으로 프로그램 내에서 공식적으로 발생하였습니다. 
'누군가가 그 오류를 발견해 저지하지 않았다면 환자에게 나쁜 일이 일어날 수 있었기 때문에 훈련위원회와 어텐딩과의 큰 논의가 될 수 있었다.'(M5) 

This collective recognition of failure was helpful in bringing attention to a trainee who needed closer observation. However, when it was the case that ‘everybody was noticing’ (M41), it was acknowledged that the trainee's reputation could affect how they were supervised and assessed. Underperforming trainees were discussed among supervisors in order to provide increased supervision. This was done informally when a colleague initiated ‘discussing with the preceptors and making sure the other preceptors know this isn't just a one-off or that this person is potentially dangerous’ (M12). It also happened formally within the programme in response to a serious incident: ‘had someone not picked up that error and stopped it, something bad could've happened to the patient and so it became a big discussion within our training committee and with the attendings’ (M5).

감독관들은 특별한 주의가 필요한 시기를 논의했다. '현미경을 가지고 있으면 흔들기가 매우 어렵다'가끔은 정당하다고 생각한다.(M14). 연습생이 각별한 주의를 '부당한 대우'로 인식하는 것이 명확해진 사례도 있었지만(S22), 감독자와 프로그램은 이를 필요한 감독 및 적절한 피드백으로 해석하였다. 이러한 의견 차이는 일반적으로 훈련생이 피드백에 저항하고 있다는 인식과 관련이 있었습니다. 예를 들어, 프로그램 책임자와 토론할 때, 의대생은 '왜 실제로 그가 한 일이 옳은 일이었는지, [선입자들이] 잘못 해석했거나 이해하지 못했는지, 또는 그들이 틀렸고 그가 옳았다'고 설명할 것이다(S22). 이러한 행동은 '모든 사람이 실제로 능력 문제를 인식하지 않고 […] 나를 이해하려고 하는[…] 통찰력 부족에 기인하는 경향이 있습니다(S25).

Supervisors discussed times when the extra attention was deserved: ‘once you have a microscope on you it's very hard to shake the microscope—I think sometimes it's justified’ (M14). There were examples where it had become clear that the trainee perceived the extra attention as ‘being mistreated’ (S22), but the supervisors and programme interpreted it as necessary supervision and appropriate feedback. This difference of opinion commonly involved the perception that the trainee was being resistant to feedback. For example, when in a discussion with the programme director, a medical student would ‘explain why actually what he had done was the right thing to do and that [preceptors] had misinterpreted or they didn't understand or that they were wrong and he was right’ (S22). This behaviour tended to be attributed to ‘lack of insight [… with thinking] everybody is out to get me […] instead of actually recognising, no, there are some actual competency issues’ (S25).

또한 이러한 집단적인 관심으로 인해 훈련생이 개선을 쉽게 입증할 수 없는 상황이 발생할 수 있다. 감독관들은 '한번 실수하면 현미경 아래 있다가 갑자기 모든 것을 훨씬 더 가까이서 검사한다'(M19)고 인정했고, 이 특별한 주의는 훈련생들에게 스트레스를 주고 학습에 지장을 주었다. 이들은 '프리셉터와 레지던트 사이에 인격적 충돌이 있고 poor한 레지던트가 제대로 된 일을 할 수 없으며 모든 것이 문서화되어 있다'와 같이 특별한 관심이 정당화되지 않았다고 느끼는 사례를 공유했다(M2). 레지던트 프로그램 책임자는 자신이 처한 싱크홀로부터 벗어날 수 없다.소규모 학습 커뮤니티 내에서 '매우 무서운 사건'(S39)에 관여한다는 평판을 가진 전공의를 관리하는 것이 얼마나 어려웠는지 언급했다. 그것은 '이력을 모르는 사람들로부터 그들의 수술 능력에 대한 공정한 평가를 받기 위해 지방 밖으로 그들을 보내는' 등의 전략을 요구할 수 있다(S39)
The collective attention could also create situations where the trainee could not readily demonstrate improvement. Supervisors acknowledged that ‘once you've made a mistake, you're under a microscope and suddenly everything you do is examined that much closer’ (M19), and this extra attention caused stress for the trainee and interfered with their learning. They shared examples where they felt the extra attention was not justified, such as when there was a ‘personality conflict between the preceptor and the resident and that poor resident can't do anything right—and everything's documented—but this person can't emerge from the sinkhole that they've gotten into’ (M2). Residency programme directors discussed how difficult it was to manage residents with reputations for being involved with ‘very scary events’ (S39) within their small learning communities. It could require strategies like sending them ‘out of province to get a fair assessment of their operative skills from people that didn't know their history’ (S39).

심각한 성과 저하의 보증 실패에 대한 광범위한 인식에도 불구하고, 일부 훈련생은 로테이션에 실패하지 않았거나 프로그램에서 해고되지 않은 것으로 보고되었다. 불충분한 서류나 무력한 평가 과정이 그러한 교육생들을 졸업하게 하는 경우, 프로그램 디렉터는 "[… 이 전공의]가 합격하여 대중에게 공개되는 것에 대한 도덕적 고통"을 겪게 될 것이다(M29) 그러나 이는 '전공의가 심각한 문제라는 반박할 수 없는 증거가 있더라도 이들을 프로그램에서 완전히 빼내는 것은 매우 어려운 일이다(S37). 실패한 훈련생에 대한 경험은 정책, 커리큘럼 또는 평가에 대한 목표적이고 실질적인 변경을 통해 프로그램에 큰 영향을 미쳤다.
Despite widespread recognition of profound underperformance warranting failure, it was reported that some of the trainees did not fail the rotation or were not dismissed from the programme. When insufficient documentation or impotent assessment processes allowed such trainees to graduate, programme directors would experience ‘moral distress over [… this resident] passing and being released to the public’ (M29). But it happened because ‘even when there's irrefutable evidence that a resident is a serious, serious problem, getting them out of the program entirely is very, very difficult to do’ (S37). Experiences with failing trainees profoundly impacted programmes through targeted and substantial changes to policies, curricula or assessment.

5 토론
5 DISCUSSION

수련생을 낙제시키는 것은 쉽지 않다. '실패실패failure to fail' 현상에 대한 문헌은 감독관이 역할의 기대를 충족시키는 것을 꺼리는 것을 강조하는 경향이 있지만, 우리의 작업은 복잡하고 종종 힘든 집합적 프로세스에 상당한 깊이의 이해를 더합니다. 신뢰할 수 없는 저성능에서 실패를 인식하는 것으로의 전환에는 지속적이거나 교정되지 않는 수행능력 저하non-rectifiable underperformance의 패턴을 통해 그 규모 또는 확산성을 수량화함으로써 실패를 검증하는 프로세스가 수반된다는 것을 발견했다. 식별된 패턴에는 훈련생이 상당한 학습 격차를 드러내는 '터무니없는' 실수를 저질렀다는 것을 발견하고, 훈련생의 행동이 부적절하고 더 이상 무시할 수 없다는 것을 증명하는 공정한 동료로부터 보고서를 받고, 훈련생이 기대대로 행동할 수 없다는 것을 반복적으로 확인하는 것, 하면 안 될 것을 계속 하는 것이 포함된다. 모든 패턴은 훈련생이 감독이 있음에도 위험한 환자 치료를 제공할 위험이 있음을 나타냅니다. 그 시점에서, 감독자와 프로그램 디렉터는 환자와 직업에 대한 피해를 방지하기 위한 자신들의 의무를 견지하기 위해 훈련생이 실패하는 과정에 관여해야 한다고 느꼈다. 성과가 저조하다는 초기 징후를 믿지 않는 것에서 훈련생은 실패해야 한다는 인식으로 전환하는 과정을 더 자세히 설명하면 추가적인 통찰력을 얻을 수 있습니다.
Failing a trainee is not easy. While the literature on the ‘failure to fail’ phenomenon tends to emphasise supervisors' reluctance to fulfil the expectations of their roles, our work adds considerable depth of understanding to a collective process that is complex and often arduous. We found that the shift from disbelieving underperformance to recognising failure involves a process of verifying failure by quantifying its magnitude or pervasiveness through patterns of persistent or notorious and non-rectifiable underperformance. The identified patterns include discovering that a trainee had committed an ‘egregious’ blunder that reveals a substantial learning gap, receiving a report from an impartial colleague that verifies a trainee's behaviour is inappropriate and can no longer be ignored and repeatedly seeing that a trainee cannot do what was expected of them and/or continues to do what was not expected of them. All patterns signalled that the trainee was at risk of providing dangerous patient care, even with supervision. At that point, supervisors and programme directors felt compelled to engage in the process to fail a trainee to uphold their duty to prevent harm to patients and the profession.5, 6, 9, 10, 12, 16, 33 Additional insights can be gained by further elaborating the shift from not believing early signs of underperformance to recognising that the trainee should be failed.

5.1 고장 인식의 티핑 포인트 모델
5.1 A tipping point model of recognising failure

본 연구의 주요 기여는 patterns of failure이 비정상적인 소음이 아닌, 신뢰할 수 있는 신호credible signal로 어떻게 인식되는지를 조사하는 것이다. [믿을 수 없는 저성능]에서 [실패를 인식하는 것]으로의 전환은 [임계치를 넘은 것]과 비슷하며 티핑 포인트의 심리적 과정을 연상시킨다. [티핑 포인트]에 대한 연구는 [사회적 정보의 작은 변화도 어떤 사람을 한 범주에서 다른 범주로 전환하는 인상 업데이트에 혼합compound될 수 있다는 것]에 초점을 둔다. 티핑 포인트는 누군가의 행동을 상황적 요인으로 돌리는 것에서 그 사람의 선호도, 성격, 도덕성, 그리고 그 사람의 다른 특징에 기인하는 것으로의 변화를 나타낼 수 있다. 단순히 변화가 일어났다는 것을 진단하는diagnose 것이 아니라, 언제 변화가 일어났는지를 진단하는 능동적인 과정이다. 실패한 연수생을 티핑 포인트로 인식하는 과정을 개념화함으로써, 우리는 그 문헌을 참고하여 그 과정을 더 탐구할 수 있다.
A key contribution of our work is examining how patterns of failure are recognised as credible signal rather than anomalous noise. The shift from disbelieving underperformance to recognising failure seems akin to a threshold being crossed and is reminiscent of the psychological process of a tipping point.42, 43 Research on tipping points focuses on how small changes from new social information compound into impression updating that shifts the corresponding person from one category into another.43 Tipping points can mark the shift from attributing someone's behaviour to situational factors to attributing it to their preferences, personality, morality and other characteristics of the person.44 It is an active process where people diagnose when a change has been made rather than just note that a change has occurred.43 By conceptualising the process of recognising a failing trainee as a tipping point, we can draw on that literature to further explore the process.

[티핑 포인트]는 [식별된 변화에 대응하여 행동할 가능성이 높아지는 방향으로의 전환]을 의미합니다. 티핑 포인트의 행동을 유도하는 측면은 [실패를 인식하는 것]이 프로그램을 동원하여 수행능력이 [저조한 훈련생을 반드시 현미경 아래 둘 필요가 있다]는 참가자들의 기억과 공감을 불러일으킨다. 그러나 참가자들은 또한 현미경의 초점을 훈련생에게 맞추면 더 이상 그럴 자격이 없을 때에도 현미경을 흔드는 데 어려움을 겪을 수 있다고 우려했다. 티핑 포인트의 비대칭성이 이를 설명하는 데 도움이 됩니다. 티핑 포인트 연구는 사람들이 [개선과 같은 변화]의 속도보다 [감소하는 속도]를 더 빨리 진단하고, [개선의 징후를 행운의 징조로 무시하는 경향]이 있음을 보여준다. 또한, [티핑 포인트]는 [사람들이 예상하는 것보다 더 빨리 발생]하고, [증거는 적기 때문]에, 훈련생 평가와 관련된 사람들은 실패가 정당하다고 판단하는 데 얼마나 부지런한지 과대평가할 수 있습니다. 도덕적 티핑 포인트에서도 유사한 비대칭성이 있어서, 도덕적 쇠퇴(즉, 나쁜 행동을 저지르는 것)에 따른 처벌이 동일한 도덕적 개선(즉, 좋은 행동을 저지르는 것)에 대한 보상보다 더 기꺼이 발생함을 보여준다. [실패 실패 현상]에 대처하기 위한 노력은 수행능력 저하의 문서화를 꺼리는 것을 완화하는 데 초점이 맞춰져 있지만, 티핑 포인트 연구는 수행능력 저하를 확인한 후에도 프로세스가 어떻게 잘못될 수 있는지를 보여 줍니다. 우리는 훈련생에게 [유급이라는 섣부른 라벨]을 붙이는 것을 막아내는데 도움이 되는 행동 패턴을 찾기 위해 상관의 초기 불신과 시간을 재구성하고 싶을지도 모른다. 우리의 연구결과는 슈퍼바이저가 성적이 낮은 훈련생들을 적절히 낙제시키는 데 도움이 되는 새로운 대화를 시작합니다.

Tipping points imply a shift towards becoming more likely to act in response to identifying change.42, 43 The action inducing aspects of a tipping point resonate with our participants' recollections that recognising failure can mobilise the programme to put an underperforming trainee under a much needed microscope. However, participants were also concerned, once the microscope was focused on a trainee, that they could have difficulty shaking it, even when it was no longer deserved. The asymmetry of tipping points helps to explain this. Tipping point research shows that people more quickly diagnose a trend as declining than the same rate of change as improving and have a tendency to dismiss possible signs of improvement as lucky flukes.42, 43 Furthermore, tipping points happen faster and with less evidence than people estimate,45 which implies that those involved with assessing trainees may overestimate how diligent they are in determining that failure is warranted. A similar asymmetry in moral tipping points shows that moral decline (i.e. committing bad behaviours) is more willingly punished than identical moral improvement is rewarded (i.e. committing good behaviours).44 Although efforts to address the failure to fail phenomenon have focused on alleviating reluctance to document underperformance, tipping point research highlights how the process can go awry with a disinclination to see improvement after underperformance has been verified. We may want to reframe supervisors' initial disbelief and time spent searching for patterns of behaviour as helpful in fending off premature labelling of a trainee as failing. Our findings open a new conversation on helping supervisors to appropriately fail underperforming trainees.

티핑 포인트에 대한 연구는 감정의 영향에 많은 관심을 기울이지 않고 인지적인 측면에 집중하는 경향이 있다. 우리의 연구는 실패를 인식하는 방향으로의 전환이 있을 때 [분노]가 함께 발생하는 것으로 파악한다. 상급자에 대한 감정과 감정적 영향은 [훈련생들에게 유급을 주는 것에 대한 거부감]을 부추기는 것으로 확인되었습니다. 우리는 그것이 다른 역할을 할 수도 있다고 제안합니다. 분노는 실패를 인식하는 촉매 역할을 할 수도 있고, 어쩌면 그 부산물일 수도 있다. 우리의 방법론은 정확한 역할을 결정하는 것을 허락하지 않지만, 인터뷰를 통해 분노를 표출하고 묘사할 수 있게 했다. (불경스러운 말을 포함한) 분노의 반응이 실패-실패 연구에 보고된 경우는 거의 없기 때문에, 주목할 만하다고 생각되었다. 
Research into tipping points has tended to focus on its cognitive aspects, without much attention given to the influence of emotions. Our work identifies anger as co-occurring with the shift towards recognising failure. Emotions and emotional repercussions for supervisors have been identified as fuelling reluctance to fail trainees.3, 7, 8, 11, 13, 16, 46 We suggest that it may also play another role. Anger may be functioning as a catalyst in, or perhaps is a by-product of, recognising failure. Our methodology does not allow its precise role to be determined, but it did allow anger to be expressed and described in interviews. It struck us as remarkable, since angry reactions (including profanity) have rarely been reported in failure to fail research.4 

그러나 그것은 [무능하다는 증거]가 [경멸]을 불러일으키는 심리학 연구와 일치한다. 사람들이 화가 났을 때, 그들은 부정적인 평가가 수반될 것으로 예상되는 평가 작업을 수행할 가능성이 더 높은 것으로 밝혀졌다.48 [분노]는 잘못 인식된 결과를 바로잡기 위한 목표로 잘못에 대한 다른 사람의 책임을 평가하는 것을 수반하는 도덕적 감정이다. 가치관과 도덕적 신념이 위협받았을 때 사람들이 경험하는 감정이다. 그것은 호혜성, 정직성, 공정성, 타인에 대한 관심과 같은 상호작용을 이끄는 사회적 규칙을 위반함으로써 위계적이고 공동체의 의무에 관한 사회적 규범이 위반되었을 때 경험된다. 분노는 통제되어야 하는 부정적인 감정으로 보여지는 경향이 있지만, '정당한 분노는 사람들을 이익과 가치를 지키도록 동원하는 데 도움을 줄 수 있다.' 분노의 행동 경향은 상사가 학습자의 실패를 인정하고, 불신을 극복하도록 유도하는 데 도움이 될 수 있습니다.

But it is consistent with psychology research where demonstrations of incompetence have elicited contempt.47 When people are angry, they have been found to be more likely to perform an evaluative task that is expected to involve a negative evaluation.48 Anger is a moral emotion49 that involves appraising another person's responsibility for wrongdoing with the goal to correct the resulting perceived wrong.50 It is an emotion that people experience when their values and moral convictions have been threatened.50, 51 It is experienced when social norms regarding hierarchical and communal obligations have been violated52 through the breaking of social rules that guide interactions like reciprocity, honesty, fairness and concern for others.50, 53 Although anger tends to be seen as a negative emotion that needs to be controlled, ‘justifiable anger can help mobilise people to defend their interests and values’.54 It may be that the action tendencies of anger help to prompt supervisors to overcome disbelief in order to recognise failure.


그러나 분노는 때때로 행동에 위험한 촉매가 될 수 있다. 분노는 차이를 인식하고 다른 사람의 관점에 대해 추론하는 것과 같은 관점을 감소시킬 수 있습니다. 현재의 견해를 재검토해봐야 하는 새로운 정보에 대한 검토를 방해할 수 있다. 분노는 [반대되는 증거와 주장]을 경시하고, 자신의 견해만을 뒷받침할 증거를 확인해서, 상대를 공격할 정보를 찾게 만드는 [편향된 검색]을 자극할 수 있다. 분노는 적대적이고 징벌적인 감정과 연관된 타인에 대한 비난other condemning  감정이다. 화해의 기회를 줄인다. 중요한 것은, 그것은 임상 직장에서 괴롭힘 또는 따돌림에 선행할 수 있다는 것이다. 분노의 동원적인 측면은 훈련생 실패에 대한 거부감을 극복하는 데 도움이 될 수 있지만, 그러한 측면은 이후의 정보 탐색과 의사결정을 왜곡시킬 수 있다. 평가 시스템은 수행능력 저하에 대한 슈퍼바이저의 감정적인 반응을 전략적으로 이용하는 것으로부터 이익을 얻을 수 있을지는 모르지만, 관련된 왜곡을 상쇄하기 위한 대응책을 도입할 필요가 있습니다.

Anger, however, may sometimes be a dangerous catalyst for action. Anger can reduce perspective-taking, such as recognising differences and making inferences about someone else's point of view.55 It can impede consideration of new information that might prompt a reconsideration of currently held views.54 It can fuel a biassed search for information to attack the violator56 along with confirming evidence to bolsters one's views while downplaying opposing evidence and arguments.54 Anger is an other condemning emotion49 associated with feelings of being antagonistic and punitive.57, 58 It lessens chances for reconciliation.47 Importantly, it can be antecedent to harassment, bullying or mobbing in the clinical workplace.59, 60 The mobilising aspects of anger may help supervisors to overcome reluctance in failing a trainee, but there is the possibility for those aspects to distort subsequent information seeking and decision making. Our assessment systems may be able to benefit from strategically capitalising on supervisors' emotional responses to underperformance, but they must ensure that countermeasures are incorporated to offset any associated distortions.

[요약하면, 실패를 인식하기 위한 티핑 포인트 모델의 개요를 설명했다].

  • 성과가 저조하다는 징후에 직면했을 때, 상사는 우선은 불신감을 느끼고, 자신이 관찰하는 수련생을 이해하기 위해 감독을 강화하여 추가 증거를 찾으면서, ['의심으로부터의 이득']을 얻을 수 있다.
  • 수련생의 진행이 정체되고, 강화된 감독에도 반응이 없을 경우, [수행능력이 저조하다고 식별]된다.
  • 엄청난 오류가 발견되거나, 외부인의 통찰력이 간과했던 징후를 입증하거나, 수행능력 저하가 지속되고 있다는 압도적인 증거가 뒤따른다면 [실패를 인정]하게 될 수 있다.
  • 분노, 그리고 연습생에게 해를 끼치지 않도록 해야 한다는 의무감과 함께, 유급시킬지 말지에 대한 '의심을 넘어', 실패를 인정하면, 티핑포인트의 문턱을 넘는다.
  • 인정의 확실성에 대한 힌트를 얻은 후, 평가 프로세스 참여를 통한 불합격 보고가 이뤄질 수 있지만, progression의 복원 및 개선의 징후를 제대로 보지 못하고 놓칠 수도 있다.

In summary, we outline a tipping point model for recognising failure.

  • Upon being confronted by signs of underperformance, supervisors may experience disbelief and give the trainee the ‘benefit of the doubt’ as they seek additional evidence through increased supervision to make sense of what they are observing.
  • When the trainee's progression remains stalled and unresponsive to intensified supervision, underperformance is identified.
  • If an egregious error is discovered, or an outsider's insight substantiates overlooked signs, or a pattern of overwhelming evidence of continued underperformance follows, failure becomes recognisable.
  • Together with anger and a sense of duty to prevent the trainee from causing harm, the threshold of the tipping point is crossed with recognition ‘beyond a doubt’ that the trainee should fail.
  • Having tipped into the certainty of recognition, reporting of failure through engagement in assessment processes may be mobilised but discerning signs of restored progression and improvement may be obscured.

5.2 평가에 미치는 영향
5.2 Implications for assessment

우리의 연구는 평가 설계에 대한 잠재적 영향을 조사하지는 않았지만, 우리는 티핑 포인트 모델과 감독관이 추가적인 반성을 위해 질문을 제기하지 않는 실패를 인식하는 방법에 대한 개선된 이해를 사용할 것이다. 티핑 포인트 모델은 티핑 포인트 전 및 후 단계를 제공합니다.

Although our study did not investigate potential impacts on assessment designs, we will use the tipping point model and our improved understanding of how supervisors recognise failure to pose questions for further reflection. A tipping point model offers a pre- and post-tipping point phase.

[티핑 시점 전 단계]에서는 관찰된 내용에 대한 불신과 불확실성이 있을 수 있으며, 따라서 이러한 불완전한 이해를 문서화하는 것을 꺼릴 수 있습니다.

  • 우리의 WBA는 트레이너와 충분한 시간 동안 협력하여 슈퍼바이저가 불신을 극복하고 검증된 정보를 보고할 수 있도록 하고 있는가?
  • 이것이 불가능할 경우, 우리의 평가는 시스템이 평가 정보로 효과적으로 활용할 수 있도록 불완전하게 이해된 관찰과 경험을 감독자가 문서화하는 것을 지원하고 있는가?

평가 프로세스는 프로그램 디렉터와 역량 위원회가 접근할 수 있지만, 슈퍼바이저는 접근할 수 없는 여러 측면의 평가 데이터 내에 평가를 적절히 배치할 수 있는 경우, 감독관이 관찰 및 피드백과 함께 의문을 기록하도록 장려할 수 있다. 그 후 [역량 위원회]는 [상호 작용 시간이 제한된 개별 슈퍼바이저]가 수행할 수 없는 [수행능력 저하의 패턴]을 조기에 식별하는 데 초점을 맞출 수 있습니다.

In the pre-tipping point phase, there may be disbelief and uncertainty in what is being observed and therefore reluctance to document those incomplete understandings.

  • Are our workplace-based assessments based on a sufficient period of time working with trainees to allow supervisors to move through any disbelief and report substantiated information?
  • If this is not possible, do our assessments support supervisors in documenting incompletely understood observations and experiences in ways that the system can effectively use as assessment information?

Assessment processes could encourage supervisors to record their doubts along with their observations and feedback if programme directors and competence committees could appropriately situate the assessments within the longitudinal and multifaceted array of assessment data that they have access to but the supervisor does not. Competency committees could then focus on the early identification of patterns of underperformance that individual supervisors with limited interaction time cannot.


[티핑 포인트 후 단계]에서는 실패에 대한 인식을 동원하는 분노, 확실성 및 의무감이 있을 수 있습니다.

  • 교육생 성과에 대한 낮은 위험 평가를 기록하기 위한 신호로서 감독관이 좌절감을 사용하도록 장려한 경우, 건설적인 평가 코멘트의 문서화가 증가할 수 있는가?
  • 한편, 고장 후에 제공된 정보가 지나치게 감소에 집중되어 있을 가능성에 대처하고, 의사결정자가 개선의 증거를 이용할 수 있도록 하기 위한 대응책을 마련하고 있는가.

상급자가 일단 훈련생이 실패했다는 것을 인식하면, [개선의 징후를 발견하는 것]이 더 어렵다는 것을 알 수 있으며, 훈련생이 지속적으로 어려움을 겪고 있는 측면과 함께 [훈련생이 잘하고 있는(또는 더 나은) 측면]을 주목하도록 장려할 수 있습니다. 이와 유사하게, 프로그램 디렉터와 역량위원회는 사전에 예상되는 개선 패턴을 명시하는 것을 우선시할 수 있다.

In the post-tipping point phase, there may be anger, certainty and a sense of duty that mobilises recognition of failure.

  • If supervisors were encouraged to use feelings of frustration as a signal to document low stakes assessments of trainee performance, could documentation of constructive assessment comments be increased?
  • On the other hand, do our systems have countermeasures in place to combat the possibility that information provided after failure has been recognised may be overly focussed on decline and to ensure that evidence of improvement is accessible to decision-makers?

Supervisors could be informed that it is more difficult to see signs of improvement once they have recognised a trainee is failing and be encouraged to note aspects that the trainee is doing well (or better) along with the aspects that they continue to struggle with. Similarly, programme directors and competency committees could prioritise specifying expected patterns of improvement in advance61 with their noted absence indicative of failure.

 

5.3 제한사항 및 향후 연구
5.3 Limitations and future research

우리의 방법론은 참가자가 과거의 감독 경험을 상기시키는 것에 의존했기 때문에, 우리는 그들이 설명한 훈련생의 성과가 저조했다는 것을 검증할 수도 없고, 유급시키고자 판단했던 것의 적절성을 판단할 수도 없다. 우리의 방법에는 언어 요소 코딩, 언어 표현 및 음성 음량의 변화가 포함되었지만, 우리의 감정 해석은 여전히 주관적이다. 우리는 또한 인터뷰 중 경험을 떠올리며 표출되고 보고된 분노는 실패를 인식하면서 경험했던 분노를 나타내는 것이라고 추론한다. 
Since our methodology relied on participants recalling past supervisory experiences, we cannot verify that the trainees they described were underperforming nor determine the appropriateness of wanting to stop their progression in the programme. Although our methods included coding linguistic elements, expressions of speech and changes in spoken volume along with discussing our interpretations within the research team, our interpretation of emotions remains subjective. We also infer that the anger expressed and reported while recalling experiences during interviews is indicative of anger experienced while recognising failure.

이 민감한 주제에 대한 논의를 장려하기 위해 인터뷰 중에 다양한 질문 기법을 사용해야 했습니다. '능력 없는 훈련생'이나 '가장 걱정을 많이 일으킨 훈련생'과 같은 질문을 사용한 [리드인 질문]은 실패 사례가 적은 극단적인 사례에 대한 논의를 불러일으켰을 수 있습니다. 우리는 대조적인 사례를 공유하도록 요청했고, 참가자들이 이 제한을 해결하기 위한 방법으로서 추가 사례를 논의할 시간을 허용했다. 

We needed to use various questioning techniques during interviews to encourage discussion on this sensitive topic. Our lead-in questions using prompts like ‘least competent trainees' or ‘trainees who caused the most worry’ may have generated discussion on extreme cases at the expense of less obvious cases of failure. We did invite contrasting examples to be shared and allowed time for participants to discuss additional examples as ways to address this limitation.

우리의 분석은 [성과가 저조하다고 믿지 않는 초기 징후]에서 [훈련생은 실패해야 한다는 인식으로의 전환]에 초점을 맞췄다. 이 과정을 면밀히 검토함으로써 티핑포인트 조사와의 연계를 도출하고 이를 활용해 공정을 이해할 수 있었다. 그러나 [티핑 포인트] 개념은 데이터 수집 완료 후 분석 중에 도입되었기 때문에 분석을 지시하는 sensitising concept은 아니었다. 향후 연구에서 민감한 개념으로 사용하면 인터뷰의 내용과 형식을 형성하여 티핑 포인트의 개념의 중심을 잡을 수 있다. 

Our analysis focused on the shift from disbelieving early signs of underperformance to recognising that a trainee should be failed. By closely examining this link in the process, we were able to draw connections to tipping point research and use it to gain understanding of the process. However, the tipping point concept was not a sensitising concept that directed our analysis, as it was introduced during analysis that followed the completion of data collection. Its use as a sensitising concept in future studies could shape the content and format of interviews to centre the concept of the tipping point.

또, 수행능력 저하 인식 후의 순서에 대해서는 분석을 실시하지 않았습니다. 실패 기록, 프로그램 수강생 퇴출, 역량 기반 교육 및 프로그램 평가 시스템 내 호소에 대한 대응 등 감독관이 프로세스의 후속 단계에 어떻게 관여하는지를 계속 검토하기 위해서는 추가 연구가 필요하다. 우리는, 개선의 인식의 저하나 그 외의 불완전한 평가 증거의 수정과 함께, 저실적의 조기 특정과 실패의 보고의 증대를 서포트하기 위해서, 평가 시스템을 어떻게 개선할 수 있는지에 대한 조사를 장려한다.

In addition, we did not focus our analysis on the steps following recognition of failure. Further research is needed to continue examining how supervisors engage with subsequent steps in the process such as documenting failure, removing a trainee from a programme and responding to appeals within competency-based education and programmatic assessment systems. We encourage investigation into how our assessment systems can be refined to support earlier identification of underperformance and increased reporting of failure while also correcting for decreased recognition of improvement and other imperfect assessment evidence.

6 결론
6 CONCLUSION

[실패를 인정하는 것]은 쉬운 일이 아니며, [실패 패턴에 대응하는 방법을 결정하는 것] 역시도 복잡하다는 것을 증명했습니다. 실패가 티핑포인트로 인식되고, 분노가 티핑포인트와 공존한다는 것은, 감정이라는 것이 실패를 인정하는 장벽뿐만 아니라 실패를 인정하는 원동력이 될 가능성을 높인다. 티핑 포인트 모델은 티핑 포인트에 도달하기 전에 실적 저하의 우려가 있는 것을 슈퍼바이저가 보고할 수 있도록 지원하기 위한 재구성을 제공합니다.이를 통해 훈련생과 슈퍼바이저를 조기에 지원할 수 있습니다. 하지만, [분노]와 [피해를 방지해야 한다는 의무감]이 동반된 상태로 [티핑 포인트의 문턱]을 넘으면 [훈련생을 유급시켜야 한다는 확신감을 경직시킬 위험]이 있다고 경고한다. 따라서, 일단 Failure가 확인되면 평가 시스템 내에서 [개선을 감지]하는 데 어려움을 겪을 수 있기에, 여기에 대한 대응책을 확실하게 보완해야 함을 의미한다. [실패는 드문 사건]이며, 많은 관련자들에게는 고통으로 남을 가능성이 높지만, 실패가 어떻게 인식, 문서화 및 감시되는지에 대한 이해는 평가 시스템의 지속적인 개선을 알려줄 수 있다.

We have shown that recognising failure is no easy feat, and deciding how to respond to patterns of failure is equally complex. Our model of the shift from disbelieved to recognised failure as a tipping point and our identification that anger co-occurs with the tipping point raises the possibility for emotions to be a driver of, and not only a barrier to, recognising failure. The tipping point model offers a reframing to support supervisors in reporting suspected underperformance before the tipping point has been reached so that early support for the trainee, and the supervisor, can be initiated by decision-makers. But it also warns that crossing the threshold of the tipping point, with accompanied anger and a sense of duty to prevent harm, risks ossifying the sense of certainty that a trainee needs to fail. Thus, it offers the impetus to ensure countermeasures within our assessment systems compensate for difficulties in detecting improvement once failure has been verified. Failure is a rare event and likely to remain distressing for many involved but enhanced understanding of how it is recognised, documented and monitored can inform continued improvements to assessment systems.

 


Med Educ. 2022 Apr;56(4):395-406. doi: 10.1111/medu.14681. Epub 2021 Nov 4.

The shift from disbelieving underperformance to recognising failure: A tipping point model

Affiliations collapse

Affiliations

1Division of Medical Sciences, University of Northern British Columbia, Prince George, British Columbia, Canada.

2Department of Emergency Medicine, Stanford University, Stanford, California, USA.

3Schulich School of Medicine & Dentistry, Centre for Education Research & Innovation, Western University, London, Ontario, Canada.

PMID: 34668213

DOI: 10.1111/medu.14681

Abstract

Context: Coming face to face with a trainee who needs to be failed is a stern test for many supervisors. In response, supervisors have been encouraged to report evidence of failure through numerous assessment redesigns. And yet, there are lingering signs that some remain reluctant to engage in assessment processes that could alter a trainee's progression in the programme. Failure is highly consequential for all involved and, although rare, requires explicit study. Recent work identified a phase of disbelief that preceded identification of underperformance. What remains unknown is how supervisors come to recognise that a trainee needs to be failed.

Methods: Following constructivist grounded theory methodology, 42 physicians and surgeons in British Columbia, Canada shared their experiences supervising trainees who profoundly underperformed, required extensive remediation or were dismissed from the programme. We identified recurring themes using an iterative, constant comparative process.

Results: The shift from disbelieving underperformance to recognising failure involves three patterns: accumulation of significant incidents, discovery of an egregious error after negligible deficits or illumination of an overlooked deficit when pointed out by someone else. Recognising failure was accompanied by anger, certainty and a sense of duty to prevent harm.

Conclusion: Coming to the point of recognising that a trainee needs to fail is akin to the psychological process of a tipping point where people first realise that noise is signal and cross a threshold where the pattern is no longer an anomaly. The co-occurrence of anger raises the possibility for emotions to be a driver of, and not only a barrier to, recognising failure. This warrants caution because tipping points, and anger, can impede detection of improvement. Our findings point towards possibilities for supporting earlier identification of underperformance and overcoming reluctance to report failure along with countermeasures to compensate for difficulties in detecting improvement once failure has been verified.

WBA 시스템을 위한 타당도 지도 만들기: Messick과 Kane의 상호교차 (Acad Med, 2021)
Constructing a Validity Map for a Workplace-Based Assessment System: Cross-Walking Messick and Kane
Benjamin Kinnear, MD, MEd, Matthew Kelleher, MD, MEd, Brian May, MD, MEd, Dana Sall, MD, MEd, Daniel P. Schauer, MD, MSc, Daniel J. Schumacher, MD, PhD, MEd, and Eric J. Warm, MD 

 

 

보건 직업 교육은 [의료 제공자를 훈련시키는 데 사용되는 프로세스]가 [복무할 인구의 요구]에 따라 추진되는 접근 방식인 [역량 기반 패러다임]으로 전환되었다. 역량 측정의 필요성으로 인해 평가는 역량 기반 의료 교육(CBME) 구현에서 특히 중요하지만 어려운 측면이 되었다. 직장 기반 평가(WBA)는 실제 임상 과제를 수행하는 학습자 평가의 이점을 제공하는 평가 프로그램에 필수 요소가 되었다. 그러나 WBA는 상대적으로 낮은 심리측정적 성능으로 인해 총괄적 목적을 위한 타당성 증거가 부족하다는 비판을 종종 받는다. 우리는 타당성이 심리측정학 그 이상을 포함해야 한다고 믿는다.

Health professions education has shifted to a competency-based paradigm, 1–4 an approach in which the processes used to train health care providers are driven by the needs of the populations they serve. 5–7 The need for competency measurement has made assessment a particularly crucial, yet challenging, aspect of competency-based medical education (CBME) implementation. 8–11 Workplace-based assessment (WBA) has become integral to programs of assessment, 8 carrying the advantage of assessing learners performing real-world clinical tasks. However, WBAs are often criticized for lacking validity evidence for summative purposes due to relatively poor psychometric performance. 12 We believe validity should include more than psychometrics alone.

타당도는 good assessment의 필수불가결한 요소이므로 CBME 프로그램의 핵심입니다. 타당도에 대한 여러 가지 설명이 존재하지만, 현대의 프레임워크는 타당도를 [데이터를 미리 정의된 해석이나 사용에 대해 지지하는 해석적 주장interpretive argument]으로 개념화한다. 두 개의 현대적 프레임워크는 비록 강조점이 다르지만 타당성 증거를 구성하기 위해 일반적으로 사용된다(표 1). 메식(Messick)의 프레임워크는 타당성 [증거의 출처]를 강조하고, 케인의 프레임워크는 [증거 사슬의 추론]에 초점을 맞춘다. 이러한 프레임워크가 상호 배타적이지는 않지만, 종종 증거를 구성하기 위해 둘 중 하나가 사용된다. 그러나 우리는 그것들이 상호 보완적이라고 믿는다. 
Validity is the sine qua non of good assessment, 13 and therefore is central to CBME programs. While multiple descriptions of validity exist, 14 modern frameworks conceptualize it as an interpretive argument that supports a predefined interpretation or use of data. 15 Two contemporary frameworks are commonly used to organize validity evidence, though they differ in emphasis (Table 1). Messick’s framework stresses sources of validity evidence, 16 and Kane’s focuses on inferences in an evidentiary chain. 17 While these frameworks are not mutually exclusive, often one or the other is used to organize evidence. However, we believe they are complementary. 

 

 

접근
Approach

신시내티 대학(UC) 내과 레지던트 프로그램은 UC 메디컬 센터, 보훈 의료 센터 및 여러 외래 클리닉에서 돌아가며 약 89명의 레지던트들로 구성되어 있다. 2012년에는 대학원 의학교육 하위역량 인증협의회를 통합한 위탁기반 WBA 제도를 시행하였으며, 이후 이 데이터를 레지던트 역량 판단에 활용하기 위한 타당성 근거를 수집하고 있습니다. 

The University of Cincinnati (UC) Internal Medicine (IM) residency program, based in an urban, tertiary referral medical center, consists of approximately 89 categorical residents who rotate at UC Medical Center, Veterans Affairs Medical Center, and multiple ambulatory clinics. In 2012, we implemented an entrustment-based WBA system that integrated the Accreditation Council for Graduate Medical Education subcompetencies, and we have been collecting validity evidence for using these data for determination of resident competence since that time. 18,19

우리는 다음 4단계를 포함한 수사적 주장을 반영하는 다단계 프로세스를 사용하여 타당도 맵을 구성했다. 

  • (1) 명시된 해석과 사용에 대한 비판적인 질문을 할 때, 
  • (2) 그에 대한 대응으로 타당성 증거를 찾고, 
  • (3) 증거 분류, 그리고 
  • (4) 증거를 시각화

We constructed our validity map using a multistep process that mirrored a rhetorical argument including the following 4 steps:

  • (1) Asking critical questions about the stated interpretation and use,
  • (2) Seeking validity evidence as a response,
  • (3) Categorizing evidence, and
  • (4) Visualizing evidence.

 

1. 서술된 해석과 사용에 대한 중요한 질문
1. Asking critical questions about the stated interpretation and use

우리 팀은 먼저 우리만의 WBA 시스템에 [비판적인 대화자 역할]을 하는 방식을 택했습니다. 우리는 개별적으로 WBA 데이터를 사용하여 내린 결정이 역량 평가에 타당한지 여부에 이의를 제기할 수 있는 질문을 작성했다. 예제는 다음과 같습니다. 

  • "위임entrustment은 왜 일선 평가를 위한 구성물로 사용되는가?" 
  • "위임 평정entrustment rating의 신뢰도는 어느 정도인가?" 및 
  • "위임entrustment 점수는 임상 치료 품질 척도와 관련이 있는가?" 

이 질문들은 우리가 찾는 타당성 증거에 대한 가이드 역할을 했습니다.

Our team first took the approach of acting as an interlocutor who is critical of our own WBA system. We individually wrote questions that might challenge whether decisions made using the WBA data were valid for assessment of competence. Example questions included,

  • “Why is entrustment used as a construct for frontline assessment?”,
  • “What is the reliability of entrustment ratings?”, and
  • “Do entrustment scores correlate with measures of clinical care quality?”.

These questions then served as a guide for the validity evidence we sought.

 

2. 대응책으로서 타당성 입증 모색
2. Seeking validity evidence as a response

우리는 각각의 질문에 답변하고 뒷받침되는 증거를 제공하려고 시도했습니다. 우리는 먼저 우리의 대응을 지지하거나 반박할 수 있는 증거를 위해 기존 문헌을 검토했다. 증거가 없다면, 이전 작업을 통해 생성한 증거를 사용했습니다. 
We attempted to respond to each question and provide supportive evidence. We first reviewed existing literature for evidence that would support or refute our response. Other times we used evidence that we had generated through previous work. 

이 작업은 마이크로소프트 엑셀(마이크로소프트, 워싱턴 레드몬드) 스프레드시트를 사용하여 구성되었으며 열 제목은 다음과 같습니다. 질문, 응답, 근거, 인용문, 격차.
This work was organized using a Microsoft Excel (Microsoft Corporation, Redmond, Washington) spreadsheet with the following column headings: Question, Response, Supporting Evidence, Citations, Gaps.

 

3. 증거 분류
3. Categorizing evidence

우리는 우리의 주장에서 추론(Kane)을 뒷받침하는 증거 출처(메식)를 기준으로 증거를 구성했다(그림 1). 이 프로세스는 토론을 통해 범주 분류에 대한 그룹 합의를 형성했습니다. 예를 들어,

  • 일선 WBA 기기에 대한 위탁 프레임워크의 사용은 점수 추론(Kane)을 뒷받침하기 위한 응답 프로세스 증거(Messick)로 고려되었다.
  • 일반화 가능성 연구는 일반화 추론(Kane)을 뒷받침하는 내부 구조 증거(Messick)로 간주되었다. 

We organized our evidence by the source of evidence (Messick) supporting an inference (Kane) in our argument (Figure 1). This process was done using discussion to form group consensus around categorizations. For example,

  • the use of an entrustment framework for frontline WBA instruments was considered response process evidence (Messick) to support the scoring inference (Kane).
  • The generalizability study was deemed internal structure evidence (Messick) to support the generalization inference (Kane).

 

 

4. 증거 시각화: 지도 작성
4. Visualizing evidence: Map building

엑셀은 증거를 분류하는 기능적인 수단이었지만, 우리는 두 가지 이유로 좀 더 시각적인 형식을 원했습니다.

  • 첫째, 우리는 우리의 논쟁에 남아 있는 차이를 식별하기 위해 수집된 증거에 대해 이해할 수 있는 높은 수준의 검토를 추구했다. 이 시각 자료는 증거에 대한 심층 분석에 사용되는 Excel 문서와 함께 빠른 참조를 위한 타당도의 "맵" 역할을 할 수 있다.
  • 둘째, 지도는 우리가 이미 수집한 증거, 진행 중인 검증 작업, 향후 연구로 정리할 수 있게 해주었습니다. 

Excel was a functional means of cataloguing evidence, but we wanted a more visual format for 2 reasons.

  • First, we sought an understandable, high-level review of collected evidence to identify remaining gaps in our argument. This visual could serve as a validity “map” for quick reference, with the Excel document used for deeper dives into the evidence.
  • Second, the map allowed us to organize evidence into that which was already collected, ongoing validation work, and future studies.

We used Microsoft Visio (Microsoft Corporation, Redmond, Washington) to create the map and organize the information using spatial orientation and color/shading (Figure 2). Inferences from Kane’s framework were placed in 4 rows that crossed 3 columns labeled “Evidence obtained,” “Work in progress,” and “Gaps/future studies.” Each critical question from the Excel sheet was placed in a box that represented the corresponding response/evidence. Boxes were color coded based on which source of evidence they represented from Messick’s framework and placed in the appropriate row and column on the map.

 

 

성과
Outcomes

우리의 타당도 맵의 첫 번째 초안은 메식(Messick)이 상세히 설명한 5가지 근거 출처를 모두 포함하고 케인이 설명한 4가지 추론 모두에 걸쳐 확산된 25개의 증거 상자를 생성했다(그림 2a). 우리 팀은 지도 제작 과정과 지도 자체에서 가치를 발견했어요. 수사적 질문-응답 과정을 통해 WBA 시스템을 신중하게 비판적으로 평가할 수 있었다.

The first draft of our validity map produced 25 boxes of evidence that included all 5 sources of evidence detailed by Messick and spread across all 4 inferences described by Kane (Figure 2a). Our team found value in both the process of map construction and in the map itself. The rhetorical question–response process allowed us to critically appraise our WBA system in a deliberate fashion. 

우리는 메식 프레임워크와 케인의 프레임워크를 모두 지도에 통합하는 것이 유익하다는 것을 알았다. 케인의 틀은 증거 사슬에서 "가장 약한 고리"를 식별할 수 있다는 장점을 가지고 있어, 우리의 작업의 우선순위를 정하는 데 도움을 준다. 15 앞서 언급했듯이, 지도에는 외삽 추론을 뒷받침할 증거가 부족함을 보여주었다. 따라서, 우리는 우리의 WBA 데이터가 성과에 대한 다른 측정 또는 임상 치료 결과와 관련이 있는지를 연구하여 증거를 구축하는 데 최근의 노력을 집중해 왔다. 메식(Messick)의 프레임워크는 주어진 추론을 뒷받침할 수 있는 증거의 출처를 통해 우리가 체계적으로 생각하도록 도왔다.

We found it beneficial to integrate both Messick’s and Kane’s frameworks into our map. Kane’s framework carries the advantage of allowing for the identification of the “weakest link” in the evidentiary chain, helping us to prioritize our work. 15 As previously mentioned, the map showed our argument was lacking in evidence to support the extrapolation inference. Thus, we have focused our recent efforts on building evidence by researching if our WBA data are associated with other measures of performance or with clinical care outcomes. Messick’s framework has helped us think systematically through sources of evidence that might be sought to support a given inference.

우리의 타당도 맵은 역동적이며, 새로운 질문이 발생하고 새로운 증거가 수집됨에 따라 변화한다. 전자 형식을 사용하면 시간이 지남에 따라 지도를 쉽게 편집, 업데이트 및 공유할 수 있습니다. 그림 2b는 타당성 연구가 완료되거나 증거가 발견됨에 따라 박스가 오른쪽(미래 작업)에서 왼쪽(증거 누적)으로 이동하는 방법을 보여주는 업데이트된 지도이다. 

Our validity map is dynamic, and changes as new questions arise and new evidence is collected. Using an electronic format allows us to easily edit, update, and share the map over time. Figure 2b is an updated map, showing how boxes move from right (future work) to left (accrued evidence) as validity studies are completed or evidence is discovered. 

다음 단계
Next Steps

현재 타당도 맵의 한계는 각 상자의 질문을 뒷받침하는 증거를 쉽게 심층 분석할 수 없다는 것이다. 위에서 언급한 바와 같이 증거의 초기 분류에 Excel을 사용했으며, 이 스프레드시트에는 관련 증거에 대한 보다 심층적인 설명과 인용이 포함되어 있습니다. 향후 반복 작업에는 대화형 플랫폼과 심층 다이빙을 허용하는 플랫폼을 기반으로 타당도 맵을 구축하는 것이 포함될 것이다. 
A limitation of our current validity map is that it does not allow for an easy deep dive into the evidence undergirding each box’s question. As noted above, we used Excel for the initial categorization of evidence, and these spreadsheets contain more in-depth explanations and citations for relevant evidence. Future iterations will involve building our validity map on a platform that is interactive and allows for deep dives. 

우리는 WBA 시스템에 대한 타당성 증거를 수집, 분류 및 구성하는 데 가치를 발견했지만, 가장 높은 가치는 평가 시스템의 이해관계자와 이 작업을 공유하는 데 있다. 우리는 우리의 과정과 제공된 증거의 수용 가능성에 대한 피드백을 얻기 위해 의학 교육계의 다른 사람들과 우리의 타당성 맵을 예비적으로 공유했습니다. 26 다음 단계에는 타당성 맵이 프로그램의 타당성 주장을 평가하는 데 가치를 추가하는지 이해하기 위해 이해관계자(예: 인가자, 기관 지도자, 학습자, 환자)의 의견을 수집하는 것이 포함된다. 이해관계자들은 증거의 우선순위를 다르게 정하거나 우리에게 처음에 분명하지 않은 새로운 gap을 강조할 수 있다. 
We found value in collating, categorizing, and organizing validity evidence for our WBA system, but the highest value lies in sharing this work with the stakeholders of our assessment system. We have preliminarily shared our validity map with others in the medical education community to obtain feedback on our process and the acceptability of the evidence provided. 26 Next steps include collecting stakeholders’ (e.g., accreditors, institutional leaders, learners, patients) input to understand if our validity map adds value for evaluating our program’s validity argument. Stakeholders may prioritize evidence differently or highlight new gaps not initially evident to us. 

결론
Conclusion

WBA 시스템에 대한 타당도 맵을 구축하는 것이 증거 격차를 식별하고 향후 연구 및 프로그램 개선 노력을 계획하는 데 도움이 된다는 것을 발견했습니다. 다른 프로그램도 WBA 시스템의 의도된 사용을 정의하고, 중요한 질문을 생성하고 관련 증거를 수집하기 위한 수사적 질의응답 접근법을 사용하며, 증거를 구성하고 중요한 차이를 식별하기 위해 Messick과 Kane의 프레임워크를 사용하여 유사한 접근방식을 취할 수 있다. 

We found that constructing a validity map for our WBA system helped identify evidentiary gaps and plan future research and program improvement efforts. Other programs could take a similar approach by defining the intended use of their WBA system, using a rhetorical question–answer approach to generate critical questions and collect relevant evidence, and using the frameworks from Messick and Kane to organize evidence and identify critical gaps.

 


Acad Med. 2021 Jul 1;96(7S):S64-S69.

 doi: 10.1097/ACM.0000000000004112.

Constructing a Validity Map for a Workplace-Based Assessment System: Cross-Walking Messick and Kane

Affiliations collapse

Affiliations

1B. Kinnear is associate professor of internal medicine and pediatrics, Department of Pediatrics, University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0003-0052-4130.

2M. Kelleher is assistant professor of internal medicine and pediatrics, Department of Pediatrics, University of Cincinnati College of Medicine, Cincinnati, Ohio.

3B. May is assistant professor of internal medicine and pediatrics, Department of Internal Medicine, University of Alabama Birmingham School of Medicine, Birmingham, Alabama.

4D. Sall is program director, HonorHealth Internal Medicine Residency Program, Scottsdale, Arizona, and assistant professor of internal medicine, University of Arizona College of Medicine, Phoenix, Arizona.

5D.P. Schauer is associate professor of internal medicine and associate program director, Department of Internal Medicine, University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0003-3264-8154.

6D.J. Schumacher is associate professor of pediatrics at Cincinnati Children's Hospital Medical Center/University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0001-5507-8452.

7E.J. Warm is professor of internal medicine and program director, Department of Internal Medicine, University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0002-6088-2434.

PMID: 34183604

DOI: 10.1097/ACM.0000000000004112

의학교육의 프로그램적 평가가 헬스케어에서 배울 수 있는 것(Perspect Med Educ, 2017)
What programmatic assessment in medical education can learn from healthcare
L. Schuwirth1,2 · C. van der Vleuten2 · S. J. Durning1,3

 

 

배경
Background

의학 교육에서 평가에 대한 새로운 접근 방식인 프로그램 평가라고 불리는 것이 등장하고 있다. [프로그램적 평가]는 학습자의 역량과 진도에 대한 일상적인 정보를 지속적으로 수집하고 분석하며, 필요한 경우 학습자와 멘토에게 최대한의 정보를 제공하고, 훈련 종료 단계에서 고부담 의사 결정을 허용하기 위해 의도적으로 수집된 추가 평가 정보로 보완하는 접근법이다. 이를 위해 다양한 평가 도구가 일반적으로 사용됩니다 [1–3]. 
A new approach to assessment is emerging in medical education, called programmatic assessment. Programmatic assessment is an approach in which routine information about the learner’s competence and progress is continually collected, analyzed and, where needed, complemented with purposively collected additional assessment information, with the intent to both maximally inform the learner and their mentor and allow for high-stakes decisions at the end of a training phase. For this, a variety of assessment instruments are usually used [13].

프로그램적 평가는 거의 전적으로 [학습의 평가AoL]에 초점을 맞춘 전형적인 '모듈 테스트module-test' 구성 요소를 사용하는 [기존의 평가 프로그램과]는 상당히 다르다. 우리는 프로그래밍 방식의 평가가 실제로 다양한 관점에서 더 타당하다고 생각하며 왜 그렇게 생각하는지 설명하기 위해 임상 의학과의 유사성을 사용하고자 합니다. 

Programmatic assessment is quite different from more traditional assessment programs with the typical ‘module-test’ building blocks focussing almost entirely on assessment of learning. We think that programmatic assessment actually makes more sense from various perspectives and we want to use analogies with clinical medicine to explain why we think so. 

프로그래램적 평가 접근법에서, 각 평가는 학습자에게 [의미 있는 피드백]을 제공합니다. 이러한 피드백은 양적, 질적 또는 둘 다일 수 있다. 각 개별 평가는 처음에는 '고부담 판단'을 위한 것이 아니라, 학습자가 자신의 성과를 분석하고 구체적인 학습 목표를 수립하고 입증할 수 있도록 달성하기 위해 사용해야 한다. 개별 평가는 (예를 들어 포트폴리오에서) 수집될 구성요소로 사용되며, 그런 다음 교수진이나 위원회가 이를 분석하여 방어 가능한 고부담 결정을 내릴 수 있는 [풍부한 진단적 그림rich diagnostic picture]을 만듭니다. 일반적으로 모든 정보는 내용에 의해 의미 있는 방식으로 다양한 출처의 정보를 결합하여, 총괄적 결정을 위해 주기적으로 평가 위원회에 의해 검토된다[1, 2, 7]. 이 검토를 바탕으로 재교육remediation 계획이 제공된다. 학습자와 전담 교원(기관에 따라 멘토, 감독 또는 코치라고 함) 간의 지속적인 대화는 피드백, 역량 개발 분석, 교정 및 개인 개발에 초점을 맞춘다. [고부담 객관식 시험을 치른 후 합격-불합격 결정을 내리는 것과 같은 기존의 평가]가 아니라, 프로그램적 평가는 달성된 역량 수준과 그 발달 과정을 모두 다룬다. 
In the programmatic assessment approach, each assessment produces meaningful feedback to the learner. This feedback may be quantitative, qualitative or both. Each individual assessment is not initially meant for ‘high-stakes’ decision-making, but has to be used by the learner to analyze their own performance, formulate concrete learning goals and demonstrably attain them. Individual assessments are used as components that are to be collected, for example in a portfolio, and then analyzed by a faculty member or committee into a rich diagnostic picture that will allow defensible high-stakes decisions. Typically, all information is periodically reviewed by an assessment committee for summative decisions, combining information from various sources in a way that is meaningful by content [1, 2, 7]. So, for example, results on parts of a multiple-choice examination may be combined with parts of a mini-CEX or OSCE examination to draw conclusions as to the examinee’s progress in a domain of performance. Based on this review, remediation plans are provided. A continuous dialogue between the learner and a dedicated staff member (called either mentor, supervisor or coach in different institutes) further scaffolds the focus on feedback, analysis of competence development, remediation and personal development. Instead of a conventional assessment such as taking a high-stakes multiple-choice examination followed by a pass-fail decision, programmatic assessment addresses both the attained competence levels and their developmental processes. 

 

유사성
Analogies

유사 1: '건강' 개념과 마찬가지로 역량competence의 개념은 정의하기 어려울 수 있지만 평가, 홍보 및 개선될 수 있습니다.
Analogy 1: Like the concept ‘health’, the concept of competence may be difficult to define but it can be evaluated, promoted and improved

세계보건기구(WHO)의 건강 정의는 '완전한 신체적, 정신적, 사회적 안녕 상태이며, 단순히 질병이나 질병이 없는 것만이 아니다'이다[8]. [역량]에 대한 일반적인 정의는 '(의사가) 복무할 개인 및 공동체의 이익을 위해 의사소통, 지식, 기술 기술, 임상 추론, 감정, 가치, 성찰을 일상 실무에서 습관적이고 현명하게 사용하는 것'이다[9]. 두 정의 모두 이해를 전달하지만 실제 실행에는 도움이 되지 않습니다. 건강의 정의는 특정 환자를 진단하고 치료하는 데 도움이 되지 않으며 역량의 정의는 특정 학습자의 평가와 교육에 도움이 되지 않는다(학생, 레지던트 또는 실제 의사). 그러나 이들의 공통점은 '건강'과 '역량' 둘 다 정의하기가 거의 불가능하다는 사실에도 불구하고 여전히 평가되고 향상될 수 있다는 것이다. 의사는 '건강하지 않음'을 진단할 수 있으며, 마찬가지로 전문 평가자도 '무능력'을 진단할 수 있다[10]
The WHO definition of health is: ‘a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity’ [8]. A popular definition of competence is ‘the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and the community being served’ [9]. Both definitions convey an understanding, but do not really help in actual practice. The definition of health does not help in diagnosing and treating specific patients and the definition of competence is not helpful for the assessment and education of specific learners at any level (students, residents, or physicians in practice). What they have in common, though, is that despite the fact that both ‘health’ and ‘competence’ are almost impossible to define, they can still be evaluated and improved. Doctors are able to diagnose ‘ill-health’, and likewise it is possible for expert assessors to diagnose ‘dyscompetence’ [10].

물론 대부분의 건강관리 영역(그러나 정신건강에서는 덜 그렇다)에서 질병은 직접적으로 관찰 가능한 임상적 특징을 가질 수 있는 반면, 역량은 항상 우리가 관찰할 수 있는 것에서 추론되어야 한다. 그러나 다른 한편으로, 완전한 범위에서 질병을 진단할 수 있는 단일 도구가 없는 것처럼, 모든 '역량'을 평가할 단일 도구가 없다는 점으로 유추가 확장될 수 있다. 의료 진단은 병력, 신체 검사, 실험실 테스트, 병리학 또는 방사선 연구와 같은 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것을 포함한다. 마찬가지로, 프로그램적 평가는 수험자의 역량을 진단할 뿐만 아니라 역량을 증진하고 향상시키기 위해 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것이다.

Of course there are also differences in that in most domains of healthcare (but less so in mental health) the illness may have directly observable clinical features whereas competence always has to be inferred from what we can observe. But, on the other hand, the analogy can be extended in that much like there is no single instrument that will diagnose any illness in its full scope, there is no single instrument that will assess ‘competence’ in its entirety. Diagnosing in healthcare involves the careful collection and collation of information from various sources such as the history, physical examination, lab tests, pathology or radiographic studies. Likewise, programmatic assessment is the careful collection and collation of information from various sources not only to diagnose the examinee’s competence but also to promote and improve their competence.

유사 2: 평가에서 구조화되고 표준화된 테스트만 사용하는 것은 환자를 실험실 가치만으로 진단하는 것과 같습니다.
Analogy 2: Merely using structured and standardized testing in assessment is like diagnosing a patient on lab-values alone

전통적인 평가 모델에서 일반적으로 논의되는 주제는 양적 또는 질적 중 어떤 정보를 가장 잘 사용할 수 있는지와 관련이 있다. 정량적 접근법은 심리측정적 특성으로 인해 고부담 평가일수록 우선된다. 그러나 프로그램 평가에서 논쟁은 양적 정보가 질적 정보보다 나은지(또는 그 반대인지)가 아니라, 개별 학습자에게 그 [두 가지 정보를 어떻게 결합하는 것이 가장 좋은지]에 대한 것이다. 순수하게 실험실 테스트에 기반한 의료 시스템은 이상적이지 않으며, 반대로 실험실 테스트에 액세스할 수 없는 시스템도 마찬가지입니다. 평가에서 질적 정보를 포함하는 것은 종종 [비구조화된(질적) 평가는 심리측정적으로 품질을 보장할 수 없기 때문에 표준화된 테스트만큼 엄격하지 않다]는 우려를 제기한다. 그러나 다시 한 번, 의료행위와 강력한 유사성이 있다.
A commonly debated topic in traditional assessment models relates to which information best to use: quantitative or qualitative; with quantitative approaches being given priority for higher stakes assessments due to their psychometric properties. The debate in programmatic assessment, however, is not whether quantitative information is better than qualitative or vice versa, but how best to combine them for each individual learner. A healthcare system that is based purely on lab testing would not be optimal but neither would a system that has no access to lab testing. In assessment, the inclusion of qualitative information often raises concerns that unstructured assessments are not of the same rigour as the standardized tests, because the latter can be quality assured with psychometrics and the former cannot [11]. But, again, the analogy with healthcare practice is powerful.

환자의 헤모글로빈 수준을 검사할 때, 일반적으로 헤모글로빈 수준에 대한 실험실 분석가의 의견에는 관심이 없지만 수치 값(예: 12.2 g/dl(7.57 mmol/l)만 알고자 합니다. 측정의 신뢰성(및 타당성)은 실험실 장비의 품질, 모집단 데이터 및 95% 신뢰 구간과 같은 특성에 의해 결정됩니다. 반면에, 우리가 조직병리학 보고서를 요청할 때에는, 병리학자의 전문가의 의견을 원하는 것이지 숫자를 원하는 것이 아니다. 그 결과의 신뢰성(및 타당성)은 임상 질문에 관한 보고서의 설득력cogency, 병리학자의 교육에 대한 신뢰trust, 결론의 개연성plausibility, 신중한 문서화에 의해 결정된다. 수치 측정에 관한 품질기준을 병리 보고서에 적용하거나, credibility criteria를 실험실 수치에 적용하는 것은 말도 안 된다. 마찬가지로, 프로그램적 평가 프로그램에서 [평가의 품질 보증]은 전적으로 심리측정에만 기초할 수 없으며, 신중한 문서화, 근거의 설득력, 평가 전문성 개발을 통합해야 한다[12].

When we order a haemoglobin level for a patient we are generally not interested in the lab analyst’s opinion about the haemoglobin level but merely want to know the numerical value, for example 12.2 g/dl (7.57 mmol/l). The reliability (and validity) of the measurement are determined by characteristics such as the quality of the lab equipment, population data and 95% confidence intervals. When, on the other hand, we order a histopathology report we are not interested in receiving a number but we want the pathologist’s expert opinion. The reliability (and validity) of that outcome is determined by the cogency of the report with respect to the clinical questions, the trust in the education of the pathologist, the plausibility of his/her conclusions and their careful documentation. It is nonsensical to apply the measurement-type quality criteria to this report or the credibility criteria to the lab value. In a programmatic assessment program quality assurance of the assessments likewise cannot be purely based on psychometrics and will have to incorporate careful documentation, cogent underpinnings of decisions and assessment expertise development [12].

국가 차원에서도 이러한 비유는 유효하다. 프로그래밍 방식의 평가는 결코 국가단위 시험에 반대하는 주장이 아니다. 국가단위 의료 시스템은 (적절한 진단 후속 조치가 있는 경우) 국가단위 스크리닝 프로그램의 혜택을 받는 경우가 많다. 따라서, [국가단위 시험에서 성적이 저조한 수험생]에 대하여 동등한 '진단적' 후속 조치가 있거나, 다음과 같은 질문에 답할 수 있다면, 국가 시험에 결과를 포함시킴으로써 프로그램 평가의 이점이 있을 것이다. 

  • '역량부족dyscompetence'의 유병률은 어느 정도인가? 
  • '스크리닝 도구가 충분히 민감하거나 특이합니까?' 
  • '스크리닝을 했을 때의 결과가 그렇지 않은 경우보다 나은가?' 그리고 
  • '치료/해치에 필요한 숫자는 무엇인가?'가 제시되어 있다.

At the national level the analogy also holds. Programmatic assessment is by no means an argument against national testing. National healthcare systems often benefit from national screening programs provided there is suitable diagnostic follow-up. So would a programmatic assessment benefit from including the results on national testing, provided there is an equivalent suitable ‘diagnostic’ follow-up of those examinees who underperform at this level, and questions like:

  • ‘What is the prevalence of the disease ’dyscompetence‘?’,
  • ‘Is the screening tool sensitive/specific enough?’,
  • ‘Is the outcome of the disease with screening better than without?’ and
  • ‘What is the number needed to treat/harm?’ are addressed.

 

유사 3: 진단만으로는 환자를 치료하기에 충분하지 않은 것처럼, 시험만으로는 효과적으로 학습자의 역량 수준을 높이기에 충분하지 않습니다.
Analogy 3: Testing alone is not enough to effectively lead to higher competence levels of learners like merely making a diagnosis is not enough to cure a patient

이 개념을 표현하는 대표적인 금언은 '환자의 체온을 재는 것만으로는 치료할 수 없다'는 것이다. 순수하게 환자를 진단하는 것 자체가 충분하지 않다; 그것은 치료 활동과 결합되어야 한다.
The typical aphorism to express this concept is the statement that ‘merely taking a patient’s temperature is not enough to cure them’. Purely diagnosing a patient, in itself, is not enough; it has to be combined with therapeutic actions.

평가 또한 '치료적'이어야 한다. 건강관리에서의 진단 절차가 단지 '건강/건강하지 않은' 결정으로 귀결된다면, 임상의는 치료 계획을 결정하기 위해 행동할 것이 거의 없을 것이다. 이것이 의료에서 진단적-워크업이 일반적으로 정확히 무엇이 잘못되었는지, 얼마나 심각한지, 그리고 최선의 행동 방침이 무엇인지 진단하기 위해 의도적으로 계획되는 이유이다. 임상의가 아무런 치료도 하지 않고서, 단순히 모든 검사를 몇 주 후에 다시 실행하여 수치가 정상화되었는지 확인할 가능성은 거의 없습니다. 그러나 전통적인 시험에서 이것은 종종 원래 테스트의 반복적인 측정일 뿐인 재시험에서 종종 발생합니다.  또한, 이러한 테스트는 문제의 잠재적인 근본적인 원인에 대한 정보를 제대로 제공하지 못하며, 교정적 전략 제공도 제한적이다. 물론 시험이 학습에 미치는 영향, 특히 시험 강화 학습 효과[13, 14]를 무시할 수는 없지만, 목적한 정보targeted information가 없이 시험-강화 학습의 효과에만 의존하는 것은, "의도적인 연습"이라 불리는 피드백과 표적 실습targeted practice의 역할의 중요성을 고려한다면, 저조한 효과만을 보일 것이다.

Assessment also needs to be ‘therapeutic’. If diagnostic procedures in healthcare were to just result in a ‘healthy/not healthy’ decision, the clinician would have very little to act on to determine his/her therapeutic plan. This is why in healthcare, diagnostic work-ups are typically purposefully planned to diagnose exactly what is wrong, how severe the condition is, and what the best course of action is. It is unlikely that a clinician would simply run all the tests again a couple weeks later to see whether they have normalized without any therapy. Yet in traditional testing this is often what happens with re-examinations which are often merely a repeated measurement of the original test. Further, these tests are not optimally informative as to potential underlying causes of the problem – they offer limited strategies for remediation in and of themselves. Of course, one cannot ignore the effects of tests on learning – in particular the test-enhanced learning effect [13, 14] – but the reliance on these effects without targeted information is likely to make the whole process less effective as the importance of the role of feedback and targeted practice – deliberate practice – is generally accepted [15].

프로그램적 평가에서 학습자와 교수진에게 [어떤 특정한 재교육 활동이 필요한지]에 대한 정보를 제공하기 위해, [의도적으로 서로 다른 유형의 정보의 조합]을 사용한다. 예를 들어, [복부 해부학에서 객관식 질문]에 대한 결과는 [복부 검사의 OSCE 스테이션] 및 [복부 통증이 있는 환자에 대한 미니 CEX]의 결과와 결합하여 학습자가 다음 중 어떤 문제를 가지고 있는지를 결정할 수 있다.

  • 기술 부족(따라서 더 많은 연습이 필요함), 
  • 해부학적 지식 부족(따라서 해당 도메인 교정 필요) 또는 
  • 불충분한 환자 상담 기술 

In programmatic assessment, the combination of different types of information is deliberately used to inform the learner and faculty alike about what specific remedial activity would be needed. For example, the results on multiple choice questions (from a larger test) on abdominal anatomy can be combined with those on an OSCE station on abdominal examination and a mini-CEX with a patient with abdominal pain to determine whether the learner has

  • insufficient technique (and therefore just requires more practice),
  • insufficient anatomical knowledge (and therefore requires remediation in that domain) or
  • insufficient patient consultation skills.

이러한 방식이 ['무릎 검사'에 대한 OSCE 스테이션 성적]으로 [복부 검사에 대한 OSCE 스테이션 성적]을 보완하는 것보다 훨씬 말이 된다. 다시 말하지만, 이러한 정보 결합 방식은 의료 서비스의 표준입니다. 임상의는 환자에게 불행하게도 그들의 HB 수치가 너무 낮지만, 다행히도 그들의 포도당이 너무 높아서 평균적으로 그들의 실험실 수치는 괜찮다고 절대 말하지 않을 것이다. 임상의는 단순히 수학적으로 평균을 내기보다는, [피로, 다혈증, 다뇨증에 대한 불만과 포도당 수준]을 결합하고, [상처 치유력이 떨어지는 동맥 맥박의 부재]를 결합하여 정보를 이해할 것이다(진단이든 치료든). 

This makes much more sense than compensating poor performance on an OSCE station on, for instance, abdominal examination with good performance on an OSCE station on ‘knee examination’. Again, this way of combining information is the norm in healthcare; a clinician would never tell a patient that unfortunately their Hb level is too low but fortunately their glucose is too high and so, on average, their lab values are ok. The clinician would combine the glucose level with complaints about fatigue, polydipsia and polyuria and absent arterial pulses with poor wound healing to make sense of the information (both diagnosis and treatment of a specific problem) rather than to merely mathematically average it.

유사 4: 질병을 진단하는 것이 단순히 체크박스 작업이 아닌 것처럼, 체크박스 작업을 가지고 역량부족dyscompetence를 진단하는 것도 효과가 없습니다.
Analogy 4: Like diagnosing a disease is not merely a tick box exercise ‘diagnosing’ dyscompetence using a tick box exercise does not work either

현재, 다양한 교육 및 라이선스 기관들이 '역할roles' 또는 '역량competencies'의 관점에서 결과를 발표했다. 이들은 항상 이러한 역량을 더 상세한 하위 역량 또는 더 깊은 수준의 세부 역량('하위 역량')으로 구분해 왔다. 평가의 관점에서 이것은 종종 두 가지 이유로 인해 문제가 있다고 여겨진다.
Currently, various educational and licencing organizations have published outcomes in terms of ‘roles’ or ‘competencies’. Invariably they have divided these competencies further into more detailed sub-competencies or at even deeper levels of detail (‘sub-sub-competencies’). From an assessment point of view, this is often seen as problematic because of two reasons.

첫째, 그것은 결코 충분하지 않다는 일반적인 느낌이 있습니다. 의학은 거의 무한한 영역이며, [언제나 하위역량 목록에는 추가될 수 있는 다른 항목들이 존재한다. 이는 종종 무엇을 포함시키고 무엇을 빠뜨릴지에 대한 광범위한 토론으로 이어진다. 이는 면허기관뿐만 아니라 의과대학이 교육과정의 내용을 결정하는 데 있어서도 해당된다.
First, there is a general feeling that it is never enough. Medicine seems to be an almost infinite domain and there are always other items that can be added to the list of sub-competencies, often leading to extensive discussions about what to include and what to leave out. This is not only true for licencing bodies but also for medical schools in determining the content of their curriculum.

둘째, '전체'는 '부분'의 합보다 커야 합니다. 그러므로, 역량이 분리된 상세한 항목들의 목록으로 해부될 때, 역량을 평가하기 위해 그것들을 재조합하는 적절한 방법을 찾는 것은 정말 어려운 일입니다. 대부분의 경우에서 [역량 있는 학습자]라면 [방대한 목록의 모든 항목에 체크를 받으리라고 예상하는 체크리스트 접근법]은 작동하지 않을 것이 분명하다.

Second, the ‘whole’ has to be more than the sum of the ‘parts’. So, when dyscompetence is dissected into lists of separate detailed items, finding a proper way to recombine them – to glue them back together again – in order to assess ‘dyscompetence’ is a real challenge. It is clear that a checklist approach, expecting the competent candidate to tick all the items on the extensive lists will not work in most cases.

여기서도 의료와 유사한 점이 도움이 될 수 있습니다. 보건의료에서 모든 진단은 징후와 증상으로 기술될 수 있으며, 교과서는 종종 각각의 진단에 대한 징후와 증상의 긴 목록을 제공한다. 그러나, 환자가 특정 질병으로 진단받기 위해 그것들을 모두 가지고 있을 필요는 없다; 즉, 체크리스트의 모든 항목에 '체크'될 필요는 없다. 대부분의 경우 전문 임상의는 통합된 '게스탈트' 기반으로 진단을 내리고, 그 징후와 증상, 그리고 그/그녀의 평가를 구두로 설명하여 하향식 처리 활동으로서 근거를 설명할 수 있다[16]. 이러한 [게슈탈트 진단 능력gestalt diagnosis]이 없다면, 임상의는 미분 진단에서 각각의 진단에 대해, 모든 징후와 증상에 대한 정확한 PPV와 NPV를 알고, 완전한 상향식 처리를 통해서, 가장 가능성이 높은 진단을 생성하기 위해, 머리속으로 매우 복잡한 수학을 처리해야 할 것이다. 그러나 임상의는 수년간의 훈련을 통해, [휴리스틱과 가이드라인]을 통해 안내된 경험과, [점진적인 탈비계화gradual descaffolding]를 거치며 전문지식을 개발할 수 있는 기회를 가졌다. 평가자들에게도 같은 것이 적용되어야 할 것이다. 이상적으로는 [평가 문해력assessment literacy] 개발에 유사한 접근방식이 평가자에게 적용될 것이다[17].

Here too, an analogy with healthcare can be helpful. In healthcare, every diagnosis can be described in signs and symptoms, and textbooks often provide long lists of signs and symptoms for each diagnosis. But, a patient does not have to have them all to be diagnosed with a certain illness; there is no need to ‘tick all the items’. In most cases the expert clinician makes an integral ‘gestalt’ diagnosis, and is able to verbalize the signs and symptoms and his/her evaluation to explain their rationale, as a top-down processing activity [16]. Without this ability for gestalt diagnosis, the clinician would have to know all the exact positive and negative predictive values of all signs and symptoms for each diagnosis in the differential diagnosis, and do the complex mathematics mentally to produce the most likely diagnosis as a complete bottom-up processing. Yet, the clinician has had the opportunity to develop this expertise through years of training, with the use of heuristics and guidelines, with guided experience and a gradual descaffolding. The same would have to apply to assessors. Ideally a similar approach to the development of assessment literacy would be applied to assessors [17].

그러나 게슈탈트 타입의 하향식 프로세싱을 하더라도, 개별적인 징후와 증상들은 매우 유용하다; 그것들은 환자의 건강 상태를 묘사하고 평가하고 실제로 개선하는데 필요하다. 우리의 '질병'과 '역량부족' 사이의 첫 번째 유사점에 따라, 역량, 하위 역량, 심지어 하위 역량의 긴 목록은 사소한 것이 아니라, 증상 및 findings과 동등한 것으로 사용되어야 한다.  즉, 학습자의 역량을 설명, 평가 및 개선하기 위한 신호인 것이다. 학습자는 모든 하위 역량이 충족되지 않거나, 심지어 평가받지 않아도 매우 competent할 수 있다. 이는 환자가 모든 증상과 소견이 발견되지 않는 상태에서도 특정 진단을 받을 수 있는 것과 매우 비슷하다. 따라서 역량 프레임워크를 체크리스트로 사용하는 대신 평가자의 전문가 판단을 설명하고 지원하는 데 더 잘 사용될 수 있다.

But even with the gestalt-type, top-down processing, individual signs and symptoms are very useful; they are needed to describe, evaluate and actually help improve the patient’s health status. In line with our first analogy between ‘illness’ and ‘dyscompetence’, the long lists of competencies, sub-competencies and even sub-sub-competencies are not trivial, but they are to be used as the equivalent of signs, symptoms and findings to describe, evaluate and improve the learner’s dyscompetence. Of course, a learner can be highly competent despite not all sub-competencies being met or even assessed, much like a patient can have a certain diagnosis without all the symptoms and findings being present or being diagnosed. So instead of using competency frameworks as checklists they are probably better used to explain and support the assessors’ expert gestalt judgements.

유사 5: 의료 및 평가 시스템은 모두 [전문가]에게 의존하며, 이들은 개발과 육성이 필요하다.
Analogy 5: Healthcare and assessment systems both rely on expert practitioners that must be developed and nurtured

어떤 의료 조직도 의료진의 전문성expertise 없이는 작동하지 못한다는 것은 명백합니다. 조직 내 절차의 표준화 및 구조화가 의료의 품질에 매우 유익하지만(예를 들어 증거 기반 의학은 의료 의사결정에 더 많은 정보를 제공하는 데 있어 중요한 역할을 해왔다) 전문성expertise을 대체하지는 못합니다. 환자 차트의 포맷이 우수하다면, 임상의가 상담을 원활히 수행하도록 지원해준다는 점에서 유용하지만, 형식 자체가 의사의 전문성을 대체하지는 못한다. 더욱이, Hb 예와 같이, 데이터 수집은 객관적으로 이루어질 수 있지만, 데이터 해석은 결코 그렇지 않다. 동일한 Hb 수치는 한 환자에서 우려의 원인이 될 수 있고 다른 환자에서 낙관론의 이유가 될 수 있다.
It is clear that no medical organization can function without the expertise of its healthcare staff. Although standardization and structuring in procedures in the organization has been very beneficial to the quality of healthcare – evidence-based medicine for example has been instrumental in ensuring that medical decisions are more evidence informed – they do not provide a substitute for expertise. A good format for a patient chart is helpful when it supports the clinician in doing a consultation but the form in itself does not replace the physician’s expertise. Moreover, as with the Hb example, data collection can be done objectively, but data interpretation never is. The same Hb level can be cause for concern in one patient and reason for optimism in another.

평가에 대해서도 마찬가지다. 전통적인 평가에 대한 미신 중 하나는 평가가 객관적이어야 한다는 것이나, 평가는 결코 객관적이지 않다. 가장 구조화된 객관식 시험조차도 수많은 인간 판단의 결과이다: 어떤 주제를 다루어야 하는지, 시험 사이의 주제 구분 - 청사진 - 포함시킬 실제 항목, 항목의 문구 등. 객관화된 것은 오직 마지막 부분인 데이터 수집일 뿐이다. 그저 [전문가의 주관적인 판단이 모조리 시험지 제작에 사용되었기 때문에], 양식의 배포, 답안지를 수거, 심지어 점수 계산까지 어린이도 할 수 있을 뿐이다. [직장 중심의 평가WBA]는 정반대이기 때문에, [관찰]에 전문성이 필요하다. 평가 양식의 구체적 디자인은 상대적으로 덜 중요하고, 전문 심사관이 업무를 수행하는 데 도움이 되는지가 더 중요하다. 분명히 우리는 어린이가 WBA를 수행하거나, 심지어 전무성 없는 성인이 WBA를 수행하는 것은 꿈조차 꾸지 않을 것이다.
The same applies to assessment; a common myth with the traditional approach is that assessment should be objective, but assessment actually never is. Even the most structured multiple choice examination is the result of numerous human judgements: what topics to cover, the division of topics among the test – the blueprinting –, the actual items to include, the wording of the items, etc. It is only the final part, the data collection, which is objectified. Young children would be able to hand out the forms, take in the answer sheets and even calculate the scores, simply because all the subjective expert judgments have been used in the production of the test paper. With workplace-based assessment it is exactly the other way around, the expertise is needed when the observation is made. The specific design of the form is relatively unimportant as long as it facilitates the expert examiner in their task. Clearly we would not dream of having our young children perform a workplace-based assessment, or even an adult with no specific expertise.

결론은, 모든 유형의 평가에서, [(다양한 보건 전문가 영역에서) 전문성을 가진 인간의 판단이 필요]하며, 이 판단은 [충분한 내용 전문성]과 [평가 전문성]을 기반으로 하는 경우에만 타당하고 신뢰할 수 있다는 것이다[12, 18]. 전문가를 효과적이고 효율적으로 지원하고 촉진하며 신중성과 투명성, 문서화, 대학간 협의가 이뤄질 수 있는 절차를 갖춘 조직의 지원을 받아야 한다. 따라서 이러한 조직은 [교수 개발]과 [평가 전문성 개발]에 자원을 투입해야 합니다. 이것의 궁극적인 결과는, 평가가 단순한 [측정 문제]가 아니라 [교육 설계와 직원 개발 문제]라는 것이다.
The bottom line is that in every type of assessment expert human judgement – from various health professional domains – is needed and this judgement is only valid and reliable if it is based on sufficient content and assessment expertise [12, 18]. It must be supported by an organization that will effectively and efficiently support and facilitate the expert and that has procedures in place to ensure carefulness, transparency, documentation, and inter-collegial consultations. Therefore, such an organization will need to devote resources to staff development and development of assessment expertise. The ultimate corollary of this is that assessment is not merely a measurement problem, but an educational design and staff development issue.

결론
Conclusion

이러한 유사성을 통해 우리는 평가에서 현재의 발전 이면에 있는 사고와 의료 사고방식에 의해 실제로 어떻게 높은 정보를 얻을 수 있는지를 설명하려고 노력했습니다. 우리가 길게 다루지 않은 유사점 중 하나는 [돌봄care의 연속성]에 대한 것이다. 건강health과 마찬가지로, 최적의 역량competence 개발을 위해서는 [지속성longitudinality]이 중요하며, 여러 기관 간 인수인계가 필수적입니다. 충분한 정보가 기록된 문서가 없다면, 인계는 거의 불가능하며, 여러 교육 단계 간의 '인계'도 마찬가지입니다. 학부부터 대학원, 그리고 지속적인 의학 교육에 이르기까지, 프로그래밍 방식의 평가는 역량 개발을 모니터링하고 최적화하는 통로가 될 것입니다. 

With these analogies we have tried to illustrate the thinking behind current developments in assessment and how it is actually highly informed by the thinking in healthcare. One of the analogies we have not discussed in length is the one with continuity of care. For optimal development of competence, as with health, longitudinality is important and hand-overs for example between echelons are essential. Hand-over without an informative document is nearly impossible and so would be the ‘hand-over’ between stages of training. From undergraduate to postgraduate to continuing medical education, programmatic assessment would be the conduit through which competence development is monitored and optimized.

그러나, 솔직히 말하면, 교육 개념으로서의 프로그램적 평가가 [현실적 맥락]과 맞닿아야 하는 부분이 여기에 있다. 전세계적으로 성공적인 프로그램적 평가 구현의 사례가 있지만, 이는 중요한 의제로 다뤄져야 한다. [5, 7] 이에 대한 이유는 정확히 프로그램 평가와 건강관리 사이의 유사성이 실패하는 측면에 있다. 가장 중요한 차이점은 다른 문화이다;

  • [환자들은 일반적으로 의사를 그들의 지지자supporter]로 보지만, [평가를 받는 학습자들은 종종 평가자를 그들의 상대opponent]로 본다.
  • [환자들은 진단과 치료 과정으로서 건강관리의 실천에 익숙]하며, 그것은 그들이 의사와 상담할 때 기대하는 것입니다. 반면 교육생, 학습자, 교사들의 교육 경험은 프로그램 평가와는 상당히 달라왔기에, PAL을 시행하기 전에, 무엇이 [정상 평가normal assessment]를 구성하는지에 대한 교수자와 학습자의 생각이 바뀌어야 할 것이다.

But, to be frank, here is where programmatic assessment as an educational concept has to come to grips with the practical context. Despite the successful implementations of programmatic assessment around the world, this is the aspect that should be put high on the agenda [5, 7]. The reason for this lies precisely in the aspects in which the analogy between programmatic assessment and healthcare fails. The most important difference is the different cultures;

  • in healthcare, patients generally see their doctor as their supporter but in assessment learners often see their examiner as their opponent.
  • Also, patients are used to the practice of healthcare as a diagnostic and therapeutic process and it is what they expect when they consult a doctor. The experiences with education of trainees, learners and teachers on the other hand, have been quite different from programmatic assessment and therefore their ideas about what constitutes normal assessment will need to change before PAL can be implemented.

비록 제한적이더라도, 우리가 [프로그램적 평가]와 [건강관리] 사이의 유사성이 평가 개발자와 감독자/학생/훈련자 사이의 보다 공통적인 언어를 개발하는 데 도움이 될 수 있기를 바라는 이유이다. 우리는 [공유된 의사 결정을 통해 환자를 건강관리에 참여시키는 것]처럼, 이러한 [공유된 언어]가 평가 과정에 교수자와 학습자의 참여를 더욱 자극하기를 바란다.

This is why we hope that these analogies between programmatic assessment and healthcare, limited as they may be, can help in developing a more common language between assessment developers and supervisors/students/trainees. We hope further that such a shared language would stimulate their involvement in the assessment process, much like involving patients in management through shared decision making.


Perspect Med Educ. 2017 Aug;6(4):211-215.

 doi: 10.1007/s40037-017-0345-1.

What programmatic assessment in medical education can learn from healthcare

Affiliations collapse

Affiliations

1Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia. l.schuwirth@maastrichtuniversity.nl.

2Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. l.schuwirth@maastrichtuniversity.nl.

3Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.

4Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia.

5Department of Medicine and Pathology, F. Edward Hébert School of Medicine, Uniformed Services University, Bethesda, USA.

PMID: 28397009

PMCID: PMC5542889

DOI: 10.1007/s40037-017-0345-1

CBME에서 프로그램적 평가의 계획과 설계(Med Teach, 2021)
Key considerations in planning and designing programmatic assessment in competency-based medical education
Shelley Rossa,b , Karen E. Hauerc , Keith Wycliffe-Jonesd , Andrew K. Halle,f , Laura Molgaardg , Denyse Richardsonf,h , Anna Oswaldf,i , and Farhan Bhanjif,j ; On behalf of the ICBME Collaborators 

 

소개
Introduction

역량 기반 의료 교육(CBME) 맥락에서 평가에 대한 효과적인 접근방식을 설계하고 구현하는 것은 어려운 노력이다(Lurie 2012). 2017년 해리스 외 연구진(2017)은 평가 프로그램(프로그래밍 평가)의 설계를 고려해야 한다고 결론내리며, 그 이유를 어떤 하나의 평가도 모든 역량에 대한 타당한 평가를 할 수 없기 때문이라고 설명했다. 오히려, [바람직한 성과]와 [평가]를 연결하는 프로세스를 가진 명확한 프레임워크 내에서, [목적에 적합한 여러 관찰과 도구의 의도적인 결합] 또는 [프로그래밍적 평가]가 아마도 앞으로의 방법일 것이다(Iobst and Holmboe 2020; Lockyer et al. 2017).
Designing and implementing an effective approach to assessment in competency-based medical education (CBME) contexts is a challenging endeavour (Lurie 2012). In 2017, Harris et al. (2017) concluded that designing a program of assessment (programmatic assessment) warrants consideration, because no one tool or single assessment will result in valid assessment of all competencies. Rather, programmatic assessment, or the intentional combining of multiple observations and tools fit for purpose, within a clear framework with processes to link assessments to desired outcomes, is probably the way forward (Iobst and Holmboe 2020; Lockyer et al. 2017).

Van Der Vleuten과 Schwirth(2005)에 의한 건강 전문직 교육의 맥락에서 프로그램 평가에 대한 첫 번째 설명은 [다수의 평가 사례에 걸친 표본 추출 증가의 필요성]과 [통합적 평가 프로그램의 필요성]에 대한 이전의 제안을 바탕으로 작성되었다(Van Der Vleuten 1996). 2011년에 CBME의 글로벌 도입은

  • 학습자 중심의 접근방식을 활용하고
  • 역량에 초점을 맞추고
  • 학습의 평가와 학습을 위한 평가 모두를 고려하고,
  • 역량을 평가하고 학습자의 진행 궤적을 결정하기 위해 복수의 평가자가 완료한 여러 도구를 통합하는

...평가 프레임워크를 요구했다.

The first description of programmatic assessment in the context of health professions education by van der Vleuten and Schuwirth (2005) built on earlier proposals about the need for increased sampling across multiple assessment occasions (Van Der Vleuten 1996) and the need for an integrated assessment program (Baartman et al. 2007). In 2011, the global introduction of CBME called for assessment frameworks that

  • utilize a learner-centred approach,
  • focus on competencies,
  • consider assessment both for learning and of learning, and
  • incorporate multiple tools completed by multiple assessors to assess competence and determine a trajectory of progress for the learner (Ross et al. 20112012; McEwen et al. 2015).

기존 관행과 크게 다른 새로운 아이디어 또는 보건 직업의 접근방식을 채택하면 위험과 이점이 모두 존재한다. 이론이나 증거에서 적용으로의 이동은 종종 도전과 장애로 가득 찰 수 있다. 
With any adoption of new ideas or approaches in health professions education that differ significantly from existing practices there are both risks and benefits. The move from theory or evidence to application can often be fraught with challenges and obstacles. 

임상 교육에서 개념으로서의 프로그램 평가는 여전히 새로운 개념이며, [프로그래밍 평가에 대해 발표하는 학계]와 [이론을 실행에 옮기는 책임을 지는 일선 임상 교육자]들 사이에 단절이 있을 수 있다(Bok 등 2013; Bate 등 2020). 따라서, 필수적인 시작은 모든 사람이 그러한 새로운 아이디어나 혁신적인 관행과 이를 뒷받침하는 원칙에 대한 통일된 이해를 공유하도록 하는 것이다. 
Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators charged with putting theory into practice (Bok et al. 2013; Bate et al. 2020). Therefore, an essential beginning is to ensure that everyone shares a unified understanding of such new ideas or innovative practices and the principles that underpin them. 

 

프로그래밍식 평가란 무엇인가?
What is programmatic assessment?

[프로그램 평가]는 '합목적성을 최적화하기 위해 계획된 평가 방법의 배열'이다(van der Vleuten et al. 2012, 페이지 205). [개별 평가 방법을 개별 과정이나 임상로테이션이나 역량을 위해 별도로 고려하는 기존 접근법]보다 [교육 설계에 더 가까운 접근법]으로서, [세 가지 필수 평가 기준(신뢰성, 타당성, 학습에 미치는 영향)]을 충족하는 다른 평가 방법과 도구의 의도적인 결합이다. 또한, 평가도구는 [도구를 통해 수집된 증거의 조합이, 정의된 성과의 집합에 걸쳐, 학습자의 역량에 대한 방어가능한 평가를 수행하도록 보장]하는 동시에, [학습을 위한 평가를 극대화]하기 위하여 선택된다. 평가 시스템은 학습자의 [역량 향상의 진전에 대한 정보를 수집]하고, [학습을 지원]하는 [이중적인 목적]을 갖는데, 이는 보건 직업 교육과 평가에 대한 생각의 시프트를 나타낸다. 따라서 학습자의 성장과 발전은 프로그램 평가 설계 시 필수적인 고려사항이다.
Programmatic assessment is ‘an arrangement of assessment methods planned to optimize its fitness for purpose’ (van der Vleuten et al. 2012, p. 205). It is the intentional combining of different assessment methods and tools that meet three essential assessment criteria (reliability, validity, impact on learning) in an approach that is closer to instructional design than to traditional approaches that consider individual assessment methods in isolation for separate courses, clinical rotations, or competencies (van der Vleuten and Schuwirth 2005). Further, the choice of tools is intended to maximize assessment for learning, while ensuring that the combination of evidence collected through the tools will result in a defensible assessment of the competence of a learner across a defined set of outcomes (Dijkstra et al. 2010). This dual purpose of the assessment system–to both support learning and capture information about the progress of learners toward competence–represents a shift in thinking about health professions education and assessment (van der Vleuten et al. 2012; Schuwirth and van der Vleuten 2019). The growth and development of learners thus constitutes an integral consideration in designing programmatic assessment (Schuwirth and Van der Vleuten 2011; Heeneman et al. 2015; Van Der Vleuten et al. 2015; Swan Sein et al. 2020).

[프로그램 평가의 설계]에는 [특정 도구를 선택하고, 그 도구를 선택한 이유를 포함해야 하며, 선택된 도구에 의해 산출된 데이터를 사용하는 '의사결정 프로세스'의 구체적이고 상세한 설명]을 포함해야 한다. '의사결정 프로세스'는

  • 복수의 관찰에서 나온 평가 데이터를 결합하는 방법뿐만 아니라
  • 어떻게 해당 데이터를 해석(그리고 누구에 의해 해석)하며
  • 그 결과 어떻게 역량에 대한 진전 또는 입증에 대한 의사결정에 도달하는 지로 구성된다.

표 1은 프로그램 평가가 무엇인지와 아닌지에 대한 그림을 형성하기 위한 프로그램 평가의 필수 요소를 보여줍니다.
Programmatic assessment design includes both the selection of tools, including the rationale for the selection, and a specific detailed description of the decision-making process that uses the data yielded by the selected tools. The decision-making process consists of

  • the way assessment data from multiple observations will be combined, as well as
  • how that data will be interpreted (and by whom),
  • to arrive at a decision about progress toward, or demonstration of, competence (Tweed and Wilkinson 2019; Zoanetti and Pearce 2020).

Table 1 lists the essential elements of programmatic assessment to form a picture of what programmatic assessment is–and what it is not.

 

표 1. 프로그램 평가의 필수 요소.
Table 1. Essential elements of programmatic assessment.

프로그래밍 방식 평가는 이런 것이다.
- 여러 평가 도구를 사용하여 여러 데이터 지점을 기반으로 의사 결정
- 여러 가지 평가 방법
- 데이터 점의 수가 결정의 이해 관계와 비례적으로 관련된 의사결정
- 학습자가 자신의 성과에 대한 데이터를 사용하여 학습 코치의 도움을 받아 자신의 학습을 반성하고 지도하도록 유도
- 여러 관찰자로부터 수집된 증거에 대한 전문적인 판단(전문가 그룹 또는 위원회에 의한)에 기초한 진행 결정

Programmatic assessment IS
- Decision-making based on multiple data points using multiple assessment tools
- Multiple methods of assessment
- Decision-making in which the number of data points is proportionally related to the stakes of a decision
- Encouraging learners to use data about their performance to self-reflect and direct their own learning with the support of learning coaches
- Progression decisions based on professional judgment (by a group of experts or committee) of the compiled evidence from multiple observers

프로그래밍 방식 평가는 이런 것이 아니다.
- 한 번의 검사 - '모든 것'을 검사하는 경우에도 마찬가지입니다.
- 단일 도구로 모든 데이터 수집 (예: 시험만 또는 EPA만 또는 OSCE만)
- 그저 긍정적이고 고무적인 피드백의 모음

Programmatic assessment is NOT
A single examination–even if the examination covers ‘everything’
A single tool for all data collection (e.g. only examinations or only Entrustable Professional Activities or only Objective Structured Clinical Examinations)
A collection of only positive and encouraging feedback

Dijkstra et al. 2010; Eva et al. 2016; Schuwirth and van der Vleuten 2019; Tweed and Wilkinson 2019; van der Vleuten et al. 2012; Van Der Vleuten 1996; van der Vleuten and Schuwirth 2005; Zoanetti and Pearce 2020.

 

 

프로그램 평가 설계를 위한 제안된 지침
Suggested guidelines for the design of programmatic assessment

Norcini 등(2018)이 설명한 좋은 평가를 위한 프레임워크를 기반으로 하는 CARVE 원칙(Bhanji 등. 2020)은 설계자가 평가 도구를 선택하고 도구가 이행되는 목적을 고려할 때 수행해야 하는 초기, 가장 중요한 심의를 알려준다. 특정 평가의 목적에 따라 평가 프로그램을 설계할 때 CARVE가 기술한 다섯 가지 서로 다른 개념과 개별 개념의 목적적합성과 가중치가 달라질 수 있다. 평가 프로그램이 작동되면 CARVE 원칙은 프로그램의 지속적인 품질 개선에도 활용될 수 있습니다.

The CARVE principle (Bhanji et al. 2020), which is based on the framework for good assessment described by Norcini et al. (2018), informs the initial, overarching deliberations that planners must undertake as they select assessment tools and consider the purpose the tools are fulfilling. Depending on the purpose of the particular assessment, the relevance and weighting of each of the five different and separate concepts described by CARVE may vary when designing an assessment program. Once the assessment program is functioning, the CARVE principle can also be utilized in the continuous quality improvement of the program.

  • C = 비용 효과성. 실제 평가 비용, 인적 비용 또는 '적합성' 비용, 실용성 및/또는 실현 가능성을 포함한 비용 효과. 또한, C는 평가 프로그램의 포괄적이고 응집력 있는 성격을 나타낼 수 있습니다.
  • A = 수용성. 학습자, 교수진, 전문 분야 및 사회 전반에 대한 수용성.
  • R = 신뢰성. 평가 결정의 일관성으로 가장 잘 개념화할 수 있습니다.
  • V = 타당성 또는 평가 프로그램의 의도된 구성 측정.
  • E = 교육적 영향
    • 개인 레벨: 도구 또는 평가 전략이 학습 및/또는 학습자에게 피드백을 얼마나 잘 제공하는지
    • 시스템 레벨: 교육과정 설계자에게 정보를 제공하여 품질 개선을 통해 촉매적 효과를 얻을 수 있음

  • C = cost-effectiveness, including actual dollar costs of the assessment, the human or ‘opportunity’ cost, the practicality and/or feasibility. Additionally, C can represent the comprehensive and cohesive nature of the assessment program.
  • A = acceptability to the learners, the faculty, the specialty/discipline, and importantly society at large.
  • R = reliability, which can best be conceptualized as the consistency in the decisions of the assessment.
  • V = validity, or measuring the intended construct(s), of the program of assessment.
  • E = educational impact, both at the
    • individual level (how well the tool or assessment strategy would drive learning and/or feedback to the learner) and
    • systems level (providing information to curriculum designers, which can have a catalytic effect through quality improvement).

평가 프로그램 설계에는 여러 가지 추가 요소가 고려되어야 합니다. 

Multiple additional factors must be considered in designing programs of assessment. 

 

Van Der Vleuten과 Schwirth(2005)가 언급한 바와 같이, 

  • 프로그래밍 방식 평가는 '일관적이고 신뢰할 수 있는 방식으로 교육 훈련 프로그램을 개발하기 위해 채택되는 체계적인 프로세스'인 [교수설계instructional design]와 같은 방식으로 접근해야 합니다.
  • 프로그램 평가는 [결과를 염두에 두고 구축]되어야 한다. 이는 [교육과정 설계]가 [사전에 결정된 역량의 학습과 개발을 지원하기 위해 경험과 콘텐츠를 선택하기 위해 계획되어야 하는 것]과 같은 방식이다. (Torre et al. 2020).
  • 프로그램 평가에서, 선택된 도구와 프로세스는
    • 목적에 적합해야 하며(즉, 진척도나 역량을 결정하는 데 필요한 특정 정보를 수집하는 데 적합해야 함),
    • 커리큘럼 전체에 통합되어야 하며,
    • 방어 가능하고, 타당하며, 신뢰할 수 있는 정보를 제공하기 위해 의도적으로 선택되어야 한다.
      • 그럼으로써 훈련의 진행과 완료에 관한 고부담의 결정에 대한 적절한 서포트를 제공할 수 있다.

As stated by van der Vleuten and Schuwirth (2005),

  • programmatic assessment should be approached in the same way as instructional design, which is ‘a systematic process that is employed to develop education and training programs in a consistent and reliable fashion’ (Reiser and Dempsey 2012, p.11).
  • Programmatic assessment should be built with outcomes in mind in the same way that curricular design should be planned around selecting experiences and content to support learning and development of predetermined competencies (Torre et al. 2020).
  • With programmatic assessment, the tools and processes that are chosen should be
    • fit for purpose (i.e. well suited to collecting the specific information needed to determine progress or competence),
    • integrated across the curriculum, and
    • deliberately selected to give defensible, valid, and reliable information
      • that will provide adequate support for high-stakes decisions around progress and completion of training (van der Vleuten et al. 20122015).

종종 간과되는 프로그래밍 평가의 중요한 출발점은 [맥락의 중요성]이다(Bates and Ellaway 2016; Berkhout et al. 2018). 프로그래밍식 평가를 위한 'one size fits all' 설계는 없다. 고도로 집중된 전문 분야에 가장 적합한 도구와 프로세스는 보다 일반적인 실무에는 적합하지 않을 수 있습니다. 마지막으로, 프로그래밍 평가 설계는 임상 전 훈련과 임상 훈련 사이에 차이가 있을 것이다. 
A crucial starting point for programmatic assessment that is often overlooked is the importance of context (Bates and Ellaway 2016; Berkhout et al. 2018). There is no ‘one size fits all’ design for programmatic assessment; the tools and processes that are best suited to a highly focused specialty may well not be as suitable for a more generalist practice. Finally, programmatic assessment design will differ between preclinical and clinical training. 

 

1단계: 목적 설명
Step 1: Articulate the purpose

프로그래밍 평가 설계에서 [첫 번째이자 가장 어려운 단계]는 모든 이해당사자를 식별하고 평가 프로그램의 목적에 동의하는지 확인하는 것이다.

  • 학습과 교육적 영향(CARVE 원칙의 E)에 초점을 맞추고 있는가?
  • 또는 평가의 주요 관심사는 (대학원 교육 과정에서의 선행과 마찬가지로) 의사결정의 타당성과 방어 가능성입니까?

The first, and arguably most difficult, step in designing programmatic assessment is to identify all stakeholders and ensure they agree on the purpose of the program of assessment.

  • Is the focus on learning and the educational impact (the E of the CARVE principle)?
  • Or is the primary concern of the assessment the validity and defensibility of the decisions (as in advancement to postgraduate training)?

이 첫 번째 단계의 과제는 목적의 모든 측면이 고려되고 논의되고 분명하게 표현되도록 하는 것입니다. 이 단계에서는 다음 사항에 대한 논의와 합의가 필요합니다.
The challenge with this first step is ensuring that all aspects of the purpose are considered, discussed, and articulated. This step requires discussion and agreement on:

  • (1) 평가 시스템의 전반적인 초점 또는 의도
  • (2) '기준 설정'(시스템 내 학습자의 최종 목표) 및
  • (3) 발생해야 하는 평가 유형.

(1) the overall focus or intention of the assessment system;

(2) ‘setting the bar’ (the end goal for learners within the system); and

(3) the types of assessment that should occur.

전통적으로, 의학 교육의 평가 접근법은 훈련 프로그램에서 학습자의 순위를 매기거나 분류하는 것, 또는 학습 능력이 떨어지는 학습자를 식별하는 것에 초점을 맞추었다. CBME(Van der Vleuten and Schwirth 2005; Dijkstra et al. 2010)에 대해 프로그램 평가가 기술되고 정의되었듯이, [평가 프로그램의 목적]은 [역량의 학습과 개발을 촉진하는 방식으로 평가와 교육 및 교육 설계를 통합하는 것]이어야 한다. 문헌에서 이러한 프로그램 평가의 프레임(즉, 성과의 우열을 식별하기 보다는, 모든 학습자의 역량 개발을 목적으로 함)은 일관되지만, 프로그램 평가 설계자와 프로그램 평가가 구현될 커리큘럼 내에서 이 초점을 분명히 표현할 필요가 있다. Cronbach alpha와 같은 신뢰성에 대한 전통적인 접근법(CARVE원칙의 R)은 학습자 간의 점수 분포에 의존하므로 역량 기반 모델에 사용하기에 적합하지 않을 수 있다. 
Traditionally, assessment approaches in medical education have focused on ranking or classifying learners in training programs, or on identifying learners who are underperforming. As programmatic assessment has been described and defined for CBME (van der Vleuten and Schuwirth 2005; Dijkstra et al. 2010), the purpose of the program of assessment should be to integrate assessments with curricular and instructional design in a way that facilitates learning and development of competence (Schuwirth and Ash 2013). Although this framing of programmatic assessment is consistent in the literature, this focus–on development of competence for all learners rather than on identifying superior or inferior performance–does need to be articulated among programmatic assessment designers and within the curriculum where programmatic assessment will be implemented. Traditional approaches to reliability (the R of the CARVE principle), such as the Cronbach alpha, rely on a spread of scores among learners, and therefore may not be suitable for use in competency-based models.

또한, [평가 프로그램의 최종 목표]에 대한 결정이 필요합니다. 이러한 목표는 상황에 따라 달라질 수 있습니다.

  • 임상 전 훈련의 경우 학습자가 특정 지식 및 기술의 숙달도를 입증하는 것이 목표일 수 있습니다.
  • 임상훈련의 경우 학부 의학교육(UME)과 졸업후의학교육(PGME)에 따라 기준이 다를 것이다.
  • UME에서 바는 학습자가 정의된 역량에 대해 특정 수준의 역량을 입증하는 것이고,
  • PGME의 경우 학습자가 특정 전문 분야에 대한 감독되지 않은 실습에 대한 역량을 입증하는 것입니다.

In addition, decisions need to be made about the end goal for the program of assessment. This goal will differ depending on context:

  • for preclinical training, the goal may be for learners to demonstrate mastery of a specific set of knowledge and skills.
  • For clinical training, setting the bar will be different between undergraduate medical education (UME) and postgraduate medical education (PGME).
  • In UME, the bar will be for learners to demonstrate a specific level of competence for a defined set of competencies;
  • for PGME, the bar will be for learners to demonstrate competence for unsupervised practice in a particular specialty.

평가 프로그램의 목적에 대한 최종 고려사항은, 특히 CBME에서, [평가가 학습과 통합되고 지원되는 방식으로 프로그램이 전체적으로 설계되도록 하는 것]이다. 잘 설계된 평가 프로그램은 다음과 같은 세 가지 주요 유형의 평가를 모두 통합한다. 학습 평가, 학습을 위한 평가, 학습으로서 평가(Box 1)가 그것이다. 
The final consideration of the purpose of the program of assessment is to ensure that the program overall is designed in such a way that assessment is integrated with and supports learning (Van Der Vleuten 1996; Schuwirth and Ash 2013), especially in CBME. A well-designed program of assessment will incorporate all three major types of assessment: assessment of learning (Black and Wiliam 1998), assessment for learning (Black and Wiliam 1998; Schuwirth and Van der Vleuten 2011), and assessment as learning (Torrance 2007) (Box 1).

프로그램 평가를 설계할 때 평가 도구의 [이중 활용]을 고려할 때 주의해야 합니다. 학습에 대한 여러 평가의 집계가 전반적인 학습 평가와 관련된 결정을 뒷받침하는 증거의 일부로 방어적으로 사용될 수 있지만, 학습자가 모든 평가가 고부담 평가라고 받아들이며, 피드백, 코칭, 성장을 위해서 반드시 필요한 [약점의 노출]을 하지 않으려고 할 상당한 위험이 있다. 따라서 평가의 목적이 모든 관련자에게 명확하고 투명하며, 모든 이해 당사자가 평가 환경과 프로세스를 안전하다고 인식하고 학습자가 완전히 참여하도록 하는 것이 중요하다(Watling and Ginsburg 2019).

In designing programmatic assessment, it is important to be cautious when considering the dual-purposing of assessment tools. Although the aggregations of multiple assessments for learning can be defensibly used as part of the evidence to support a decision associated with an overall assessment of learning, there is substantial risk that learners may assume all assessments are high stakes and may not engage in the exposure of deficiencies or struggles necessary for effective feedback, coaching, and growth. It is, therefore, crucial that the purpose of assessment be clear and transparent to all involved, to ensure that all stakeholders perceive the assessment environment and process to be safe and that learners fully engage with it (Watling and Ginsburg 2019).


박스 1 평가의 세 가지 주요 유형.
Box 1 
The three main types of assessment.

학습의 평가 = 학습자가 개념 또는 기술을 익혔는지에 대한 엔드포인트 측정

Assessment of learning = an end-point measure of whether a learner has mastered a concept or skill

학습을 위한 평가 = 학습자의 [역량 수준에 대한 저부담 수준의 정보]를 제공하여, 학습자에게는 무엇을 잘 했고 어떻게 개선할지에 대해, 교수자에게는 학습경험을 조정하고 각 학습자에게 줄 피드백에 대해 정보를 제공한다.

Assessment for learning = low-stakes information about a learner’s level of competence that gives the learner information about what went well and how to improve, and informs teachers to enable them to adjust learning experiences and feedback to each learner

학습으로서 평가 = 학습자가 자신의 학습을 모니터링하고 반영할 수 있는 기회를 제공하는 도구 또는 프로세스

Assessment as learning = tools or processes that give the learner opportunities to monitor and reflect on their own learning


2단계: 평가 대상 결정
Step 2: Determine what must be assessed


계획자들은 평가 대상을 결정할 때 여러 가지 고려를 할 필요가 있다. 여기에는 다음이 포함된다.

  • 전반적인 성과와 평가 대상 및 주제의 정렬,
  • 맥락에 대한 고려,
  • 평가 기회를 우선함으로써 방어 가능한 진급 결정을 지원하기 위해 역량에 대한 올바른 증거가 수집되도록 함

Planners need to take a number of considerations into account when determining what must be assessed. These include

  • the alignment of assessment targets and topics with overall outcomes,
  • consideration of the context, and
  • prioritizing assessment opportunities to ensure the right evidence of competence is collected to support defensible progress decisions.

1단계에서, 기획자들은 프로그래밍 방식의 [평가의 최종 목표나 성과]를 결정합니다. 2단계에서, 그들은 그 결과를 더 작은 수준에서 고려한다. 용어는 참조된 문헌에 따라 다를 수 있지만, '활성화 역량Enabling competencies'라는 개념을 사용할 것입니다. 이는 ACGME가 프로그램 평가 설계의 이러한 측면을 논의할 때 사용하는 용어인 '하위 역량subcompetencies'과 비교된다.

  • 활성화 역량Enabling competencies은 학습자가 자신의 교육 프로그램에 의해 설정된 기준 레벨에서 유능하다고 간주되기 위해 입증해야 하는 기술, 행동 및 지식입니다.
  • 활성화 역량Enabling competencies은 거시적 수준의 역량의 전체를 구성하는 부분으로 볼 수 있으며, 훈련 프로그램이 설정한 거시적 수준의 역량에 따라 일부 중복되는 부분이 있다. 

In Step 1, planners determine the end goal or outcome of the programmatic assessment. In Step 2, they consider that outcome at a more micro level. While the terminology may differ depending on the literature consulted, we will use the concept of ‘enabling competencies’ (Redwood-Campbell et al. 2011; Lacasse et al. 2014); it is comparable to ‘subcompetencies,’ the term used by the Accreditation Council for Graduate Medical Education (Edgar et al. 2020) in discussing this aspect of designing programmatic assessment.

  • Enabling competencies are those skills, behaviours, and knowledge that learners must demonstrate to be considered competent at the level of the bar set by their training program.
  • Enabling competencies can be considered as the parts that make up a whole of a macro-level competency, and some of them overlap under the macro-level competencies set by a training program.

프로그래밍 방식 평가를 설계할 때, 반드시 [평가되어야 하는 역량들을 명확하게 표현]하는 것뿐만 아니라, 그러한 [역량들이 평가되어야 하는 맥락들을 명확히 하는 것]이 필수적이다. 예를 들어,

  • 학습자가 유능한 성인 환자와 함께 일하는 데 필요한 의사소통 기술과
  • 아이들과 함께 일하는 데 필요한 의사소통 기술은 다를 것입니다.

프로그래밍 방식의 평가 도구와 프로세스는 맥락의 차이를 허용해야 한다. 그래야 학습자가 자신의 전문 분야에 필요한 기술, 행동 및 지식을 적절하게 평가받기 위해 최소한의 역량을 입증해야 하는 맥락의 대표적인 표본에 걸쳐 평가받을 수 있을 것이다.

In designing programmatic assessment, it is essential to articulate the enabling competencies that must be assessed, as well as to clarify in which contexts those competencies must be assessed. For example,

  • the communication skills learners need to work with competent adult patients will be different from
  • the communication skills they need to work with children.

The programmatic assessment tools and processes should allow for differences in context to ensure that learners are adequately assessed in the necessary skills, behaviours, and knowledge of their specialty, across at least a representative sampling of the contexts in which competence must be demonstrated.

또한, 프로그램 평가 설계는 [평가될 모든 역량에 평가 기회를 분배]해야 한다. 이것은 전문분야의 요구되는 모든 역량에 대해 동일한 수의 평가가 수행되어야 한다는 것을 의미하지는 않습니다. 오히려 평가자에게 [무엇을 평가해야 하는지]와 [무엇이 역량의 충분한 증거를 구성하지는에 대한 기대]가 명확한 가이드라인으로 있어야 한다는 의미이다.

  • 예를 들어, 학습자는 [전원요청서]나 [차트]를 평가할 때 필요한 횟수와 [임상 추론]이나 [환자 관리management]를 평가할때 필요한 횟수가 다를 것이다.
    • 전자의 경우, 대부분의 학습자가 제한된 수의 관찰에서 역량을 입증할 수 있습니다. 일단 학습자가 몇 번의 관찰을 통해 적절한 전원요청서를 작성하거나 차트 항목을 작성할 수 있다는 것을 보여주면 학습자가 계속해서 역량 있는 행동과 기술을 입증할 수 있다는 것을 신뢰할 수 있습니다.
    • 그러나 임상추론 역량에 대해서는, 충분한 증거가 축적되기 위해서는 다양한 임상표현에 걸친 임상적 추론의 다중 평가가 필요하다.

Further, design of programmatic assessment should distribute assessment opportunities across all competencies to be assessed. This does not mean that equal numbers of assessments need to occur for every required competency of a specialty. Rather, there should be clear guidelines for assessors about what should be assessed and about expectations regarding what constitutes sufficient evidence of competence.

  • For example, a learner would not need the same number of assessments of referral letters or charts as they would of examples of clinical reasoning or management.
    • In the former case, most learners could demonstrate competence in a limited number of observations–once a learner shows that they can write a good referral letter or chart entries appropriately over a few observations, that learner can probably be trusted to continue to demonstrate that competent behaviour and skill.
    • However, multiple assessments of clinical reasoning will be needed across a variety of presentations in order for sufficient evidence of competence to be accumulated.

계획하는 프로그램 평가는 [모든 역량이 충분히 평가]될 것을 기대하는지에 대해 명확해야 한다. 의료교육은 [임상지식이나 전공 특이적 술기]를 우선시하고, 전문직업성, 환자중심 진료, 의사소통 능력 등 다른 역량에 중점을 두지 않는 경향이 있다(Poulton and Rose 2015). 그러나 후자의 역량은 환자 안전 관점 또는 환자 만족도 관점에서 안전한 의료 실행에 필수적이다. 데이스 등은 'adverse outcome이나 near-miss outcome에 기여하는 가장 일반적인 요인은 의사소통 장애와 부적절한 관리 조정이었다'고 언급했다. 잘 설계된 프로그램 평가는 [모든 역량에 대한 평가의 필요성]을 분명히 해야 하며, 핵심 이해관계자를 구성하는 환자와 공공에 대한 수용성(CARVE 원칙의 A)의 중요성에 부합해야 한다.

Those planning programmatic assessment should be clear about whether it is expected that all competencies will be sufficiently assessed. There is a tendency in medical education to prioritize clinical knowledge or specialty-specific skills and to place less emphasis on other competencies such as those related to professionalism, patient-centred care, and communication skills (Poulton and Rose 2015). However, the latter competencies are essential to the safe practice of medicine, whether from a patient safety perspective (Levinson et al. 1997; Ambady et al. 2002) or a patient satisfaction perspective (Montini et al. 2008; Lee et al. 2010). Deis et al. (2008) noted that ‘the most common factors contributing to adverse or ‘near-miss’ outcomes … were communication failures and inadequate coordination of care.’ Well-designed programmatic assessment should make explicit the need for assessment of all competencies and aligns with the importance of acceptability (the A of the CARVE principle) to patients and the public, who constitute a key stakeholder group.

 

3단계: 용도에 맞는 도구 선택
Step 3: Choose tools fit for purpose

Iobst와 Holmboe(2020)가 언급한 바와 같이, '정확하고 효과적으로 수행된다면, 프로그램적 평가는 학습을 최적화하고, 원하는 결과를 향한 학습자 진급에 관한 의사결정을 용이하게 하며, 프로그램의 품질 개선 활동에 정보를 제공해준다'. 이러한 목표를 달성하려면, [복수의 평가 도구]가 필요하며, 이 도구들은 [특정 도메인과 맥락에서 학습자 역량에 관한 정보를 수집하기에 가장 적합한 것]으로 의도적으로 선택해야 한다.

As stated by Iobst and Holmboe (2020), ‘done accurately and effectively, effective programmatic assessment optimizes learning, facilitates decision-making regarding learner progression toward desired outcomes, and informs quality improvement activities of the program.’ To achieve these aims, multiple assessment tools are needed, intentionally chosen to ensure that each tool is the most appropriate one to collect information about learner competence in a specific domain and context.

위탁 가능한 전문 활동(EPA) 및 현장 노트와 같이, 일부 도구는 매우 다용도적이어서 다수의 역량multiple competencies을 평가할 수 있다. 그러나 특정 도구가 얼마나 유혹적이고 편리하게 보일지 몰라도, 모든 역량을 동등하고 효과적으로 평가할 수 있는 완벽한 도구는 없다. 프로그래밍 방식 평가는 감당할 수 없을 정도로 많은 평가 도구를 보유하는 것을 의미하지 않는다. [제한된 수의 서로 다른 도구]라도 적절하게 선택되면, 여러 역량에 걸쳐 강력한 평가를 할 수 있으며, 비용 효율적일 수 있습니다(CARVE 원칙의 C).

Some tools, such as assessments of entrustable professional activities (EPAs) (Ten Cate 2005) and field notes (Donoff 1990, 2009), are highly versatile in assessing multiple competencies; however, there is no one perfect tool that will equally and effectively allow for assessment of every competency, despite how tempting and convenient that prospect might be. Programmatic assessment does not mean having an unwieldy number of assessment tools; even a limited number of different tools, appropriately selected, will often allow for robust assessment across competencies and will be cost-effective (the C of the CARVE principle).

프로그램 평가 설계에 포함할 도구를 결정할 때, 계획자는 [모든 역량을 학습 활동 및 평가 도구에 매핑]해야 한다. 이 매핑은 각 활동에 가장 적합한 도구의 선택을 안내합니다. 

  • 임상 지식(학습자가 아는 것)은 필기 시험을 통해 가장 잘 평가된다. 
  • 임상 지식의 적용(학습자가 보유한 지식을 사용하는 방법)은 객관적 구조 임상 검사(OSCE), 직장 기반 평가 또는 미니 임상 검사(Mini-CEX)와 같은 다른 도구를 통해 더 잘 평가된다.
  • 환자 중심의 관리 및 의사소통 기술과 같은 일부 역량은 학습자가 실습하는 임상 환경에서 학습자를 직접 또는 간접적으로 관찰함으로써 가장 잘 평가된다.
  • 전문직업성은 단순히 좋은 전문직업성이 어떤 모습이어야 하는지에 대한 학습자 리포트가 아니라, 실제 행동을 포착하는 평가 방법이 필요하다.

In determining which tools to include in programmatic assessment design, planners must map all of the competencies to learning activities and assessment tools. This mapping guides selection of the most appropriate tool for each activity.

  • Clinical knowledge (what a learner knows) is often best assessed with written examinations.
  • Application of clinical knowledge (how a learner uses the knowledge that they possess), however, is better assessed through different tools, such as objective structured clinical examinations (OSCEs), workplace-based assessments, or Mini Clinical Examinations (Mini-CEX).
  • Some competencies, like patient-centred care and communication skills, are best assessed through direct or indirect observation of a learner in the clinical environment in which they practise.
  • Professionalism, in particular, requires assessment methods that capture actual behaviour, and not just a learner’s report of what good professionalism should look like.

 

4단계: 평가의 이해관계를 고려합니다.
Step 4: Consider the stakes of assessment

학습을 최적화하고 의사결정을 용이하게 하기 위한 프로그래밍 평가의 목표를 유지하기 위해 잘 설계된 프로그래밍 평가에는 아래의 두 가지가 모두 포함되어야 한다. 

  • 저부담 평가(학습을 위한 평가, 학습으로서 평가)
  • 고부담 평가(학습의 평가, 학습으로서 평가)

In keeping with the goal of programmatic assessment to both optimize learning and to facilitate decision-making, well-designed programmatic assessment must include both

  • low-stakes assessment (assessment for learning; some assessment as learning) and
  • high-stakes assessment (assessment of learning; some assessment as learning).

저부담 평가는 학습자의 발달 궤적을 추적하는 데 유용하며, 안전하고 지지적인 학습 환경에서 실수를 할 수 있는 기회를 제공하며, 이를 통해 환자 안전을 위험에 처하게 만들지 않으면서도 교육 프로그램을 통해 전반적인 진척을 이룰 수 있다. 따라서 저부담 평가는 다음과 같은 역할을 할 수 있다. 

  • 학습을 위한 평가(학습자는 자신의 강점과 격차가 어디에 있는지 알고, 교수자에게 학습자의 진척도와 gap에 대한 정보를 준다) 
  • 학습으로서 평가(학습자가 자신의 역량에 대한 판단을 돌아보고, 해당 정보를 사용하여 학습을 계속 집중할 수 있음).

Low-stakes assessments are useful for tracking the developmental trajectory of learners and offer an opportunity for learners to make mistakes in a safe and supportive learning environment, from which they can learn without jeopardizing their overall progress through a training program and without putting patient safety at risk. Low-stakes assessments can thus serve

  • as assessment for learning (letting a learner know where their strengths and gaps might be and informing teachers about learners’ progress and gaps)
  • as well as assessment as learning (allowing learners to reflect on judgments made about their competence and use that information to focus their learning going forward).

고부담 평가도 필요하다. 고부담 평가는 교육 프로그램 동안 학습자와 교육 프로그램 모두에게 진척도에 대한 중요한 정보를 제공하며, 공식적인 교육 과정에서의 성적표 또는 직장에서의 성과 보고서와 같은 진행 상황 또는 부족 상황을 보여주는 최종 의사결정 포인트로 작용한다. 고위험 평가는 학습에 강력한 동기 부여 요인으로 작용할 수 있으므로, 교육적 효과에 매우 결정적이다(트로터 2006).

High-stakes assessments are also necessary during a training program to provide important information to both a learner and a training program about progress and act as definitive decision points that chart progress or lack thereof–like report cards in formal schooling, or performance reports in the workplace. High-stakes assessments may also serve as powerful motivators for learning and are therefore critical for their educational effects (Trotter 2006).

저부담 평가와 고부담 평가의 필요성에 대한 사례가 쉽게 만들어지지만, 둘 사이의 균형을 결정하는 것은 간단하지 않다. 프로그램 평가의 이러한 측면을 설계할 때, 계획자는 여러 가지 이슈를 고려해야 한다.

  • 얼마나 많은 저부담 평가가 필요한가? 얼마나 자주 그리고 얼마나 정기적으로 이뤄져야 하는가?
  • 어떤 교육자 및 관찰자가 저부담 평가에 기여해야 하는가? 환자? 동료들? 아니면 그냥 교관들?

While the case is easily made for the need for both low- and high-stakes assessment, determining the balance of the two is less straightforward. In designing this aspect of programmatic assessment, planners must weigh multiple issues:

  1. How many low-stakes assessments should be expected? How often and how regularly should they occur?
  2. Which educators and/or observers should be contributing low-stakes assessments? Patients? Peers? Or just preceptors?

마지막으로, 학습자와 임상 교육자에게 개별 수준에서의 저부담 평가(low-staks assessment)가 오로지 형성적formative인 것인지 명확히 해야 한다(Watling and Ginsburg 2019). 그러나 학습자 역량에 대한 의사결정에 있어 모든 저부담 평가를 배제하기는 거의 불가능하다. 저부담 평가는 그것을 전체적으로 합하여aggregate 개별 학습자의 역량에 대한 발전(또는 그 결여)의 누적 기록으로 작용한다. 프로그램 리더는 이러한 (저부담) 평가가 어떻게 사용될 것인지에 대해 학습자와 교수진에게 투명해야 합니다.
Finally, it must be made clear to learners and to clinical educators whether low-stakes assessments at an individual level are intended to be solely formative (Watling and Ginsburg 2019). However, it is nearly impossible to exclude all low-stakes assessments in making decisions about learner competence–in aggregate, low-stakes assessments act as a cumulative record of progress (or lack thereof) toward competence for an individual learner. Program leaders need to be transparent with learners and faculty about how these assessments will be used.

 

5단계: 평가 데이터 해석 프로세스 정의
Step 5: Define the process for interpreting assessment data

프로그램 평가의 중요한 구성요소는 [학습자의 역량 향상 및 달성에 대한 의사결정]에 있어 [수집된 평가 데이터가 고려되거나 해석되는 과정을 결정하고 명확하게 설명하는 것]이다. 프로세스를 구축하면 프로그램이 많은 평가 증거를 수집한 다음 이를 이해하는 방법을 고민하는 잠재적 문제를 피할 수 있다. 더 많은 프로그램이 임상 역량 위원회를 포함하는 CBME 모델로 이동함에 따라 이 문제는 덜 만연해졌다(Friedman 등 2016; Kinnear 등 2018). 프로그램 평가 계획 및 설계의 good practice는 [의사결정 프로세스의 명확성]을 포함해야 한다(Van der Vleuten 및 Schwirth 2005).
A crucial component of programmatic assessment is to determine, and clearly describe, the process by which the assessment data collected will be considered and/or interpreted in making decisions about learner progress toward, and attainment of, competence. Establishing a process avoids the potential problem where programs collect a great deal of assessment evidence and then struggle with how to make sense of it. This problem has become less prevalent as more programs shift toward CBME models that include clinical competence committees (Friedman et al. 2016; Kinnear et al. 2018). Good practice in planning and designing programmatic assessment must include clarity of the decision-making process (van der Vleuten and Schuwirth 2005).

[투명한 의사결정 프로세스]는 [모든 학습자의 형평성]에 기여할 뿐만 아니라, 평가 시스템에 기여하는 [관찰자 간의 이해와 준수uptake and compliance]를 촉진할 수 있다(Rich et al. 2020). 학습자가 자신의 학습에 통제감을 갖는 환경을 구축하기 위해서는, 평가 순간(예: 직장 기반 평가를 통한 단일 관찰)과 의사결정 사건(예: 임상 역량 위원회)의 차이를 명확하게 구분하는 것을 포함하여, [수집된 모든 평가 요소가 어떻게 사용될 것인지에 대한 명확한 지침]을 설정하는 것이 필수적이다. 
Transparency about decision-making processes not only contributes to equity for all learners, it can also facilitate uptake and compliance among observers who contribute to the assessment system (Rich et al. 2020). Setting clear guidelines about how all assessment elements collected will be used, including articulating the distinctions between assessment moments (such as single observations with a workplace-based assessment) and decision events (such as a clinical competence committee meeting), is essential to establish a learning environment where learners have a sense of control over their own learning (Schut et al. 2018).

결론
Conclusion

본 문서에서는 CMBE 교육 프로그램이 프로그램 평가를 설계 또는 재설계하는 데 도움이 되는 일반적인 템플릿을 간략히 설명했습니다. 우리는 프로그램 평가에 대한 다양한 권고 사항을 단순화하려고 시도했고, 프로그램 평가에 대한 몇 가지 신화를 불식시키기를 희망합니다. 특히, 우리는 프로그램 평가가 'one size fits all'가 아니라는 개념을 계속 지지한다. 오히려 프로그램 평가의 공통 원칙이 공유되어 있지만, 개별 프로그램은 특정 맥락에 맞는 자신만의 맞춤형 프로그램 평가 모델을 계획하고 설계해야 한다. 이를 통해 CBME 훈련 프로그램에서 확립된 프로그램 평가 접근방식을 검토하여 지침을 찾고 학습한 교훈으로부터 이익을 얻는 것이 유용할 수 있다(Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

In this paper, we have outlined a general template to help CMBE training programs as they look to design–or redesign–programmatic assessment. We have attempted to simplify the various recommendations about programmatic assessment, and we hope to have dispelled some myths about programmatic assessment. In particular, we continue to support the notion that programmatic assessment is not ‘one size fits all’; rather, while there are shared common principles of programmatic assessment, individual programs need to plan and design their own bespoke model of programmatic assessment that aligns with their particular context. In doing this, it can be useful to look at established programmatic assessment approaches in CBME training programs to seek guidance and to benefit from the lessons they learned (Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

 

 

 


Med Teach. 2021 Jul;43(7):758-764.

 doi: 10.1080/0142159X.2021.1925099. Epub 2021 Jun 1.

Key considerations in planning and designing programmatic assessment in competency-based medical education

Affiliations collapse

 

Affiliations

1Department of Family Medicine, University of Alberta, Edmonton, Canada.

2Canadian Association for Medical Education, Edmonton, Canada.

3University of California, San Francisco, CA, USA.

4Department of Family Medicine, Cumming School of Medicine, University of Calgary, Calgary, Canada.

5Department of Emergency Medicine, Queen's University, Kingston, Canada.

6Royal College of Physicians and Surgeons of Canada, Ottawa, Canada.

7University of Minnesota College of Veterinary Medicine, St. Paul, MIN, USA.

8Division of Physiatry, Department of Medicine, University of Toronto, Toronto, Canada.

9Department of Medicine and CBME lead for the Faculty of Medicine & Dentistry, University of Alberta, Edmonton, Canada.

10Pediatrics at McGill University, Montreal, Canada.

PMID: 34061700

DOI: 10.1080/0142159X.2021.1925099

Abstract

Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators who must put theory into practice. In this paper, we clearly define programmatic assessment and present high-level guidelines about its implementation in competency-based medical education (CBME) programs. The guidelines are informed by literature and by lessons learned from established programmatic assessment approaches. We articulate five steps to consider when implementing programmatic assessment in CBME contexts: articulate the purpose of the program of assessment, determine what must be assessed, choose tools fit for purpose, consider the stakes of assessments, and define processes for interpreting assessment data. In the process, we seek to offer a helpful guide or template for front-line clinical educators. We dispel some myths about programmatic assessment to help training programs as they look to design-or redesign-programs of assessment. In particular, we highlight the notion that programmatic assessment is not 'one size fits all'; rather, it is a system of assessment that results when shared common principles are considered and applied by individual programs as they plan and design their own bespoke model of programmatic assessment for CBME in their unique context.

Keywords: Assessment (general); assessment (clinical); phase of education (general); profession (General); profession (Medicine).

 

신뢰와 통제 사이: 프로그램적 평가에서 교수의 평가에 대한 개념화(Med Educ, 2020)
Between trust and control: Teachers' assessment conceptualisations within programmatic assessment
Suzanne Schut1 | Sylvia Heeneman1,2 | Beth Bierer3 | Erik Driessen1 | Jan van Tartwijk4 | Cees van der Vleuten1

 

 

1. 소개
1. INTRODUCTION

의학교육에서 평가를 학습에 활용하는 것에 대한 관심이 높아지고 있으며 그 혜택에 대한 기대도 높다. 프로그램 평가는 [연속적인 평가 부담continuum of assessment stakes]을 제안함으로써 [형성적 또는 총괄적 평가 목적의 전통적인 이분법을 극복]하려고 시도한다. 이러한 일련의 평가 부담은 다양하다.

  • 저부담 평가 (정보와 피드백을 통해 교사와 학습자를 유익하게 하고 지원하기 위한 빈번한 평가)
  • 고부담 평가 (평가 데이터의 집계에 기초한 진행 결정)

Interest in using assessment for learning is increasing in medical education and expectations of its benefits are high.1 Programmatic assessment attempts to overcome the traditional dichotomy of assessment purposes as either formative or summative by proposing a continuum of assessment stakes.2, 3 This continuum of assessment stakes ranges from

  • low (frequent assessments to benefit and support teachers and learners with information and feedback) to
  • high (progress decisions based on the aggregation of assessment data).

저부담 평가의 주요 목표는 학습자의 진도를 지원하는 것입니다. 따라서 한 번의 낮은 평가 결과가 학습자에게 제한적이어야 합니다. 그러나 여러 평가 결과가 집계되면 학습자에게 상당한 영향을 미치는 높은 평가 수행 결정을 알리는 데 사용할 수 있습니다. 실제로 학습자는 학습에 도움이 되는 저부담 평가의 가치를 인식하지 못하는 경우가 많습니다. 대신, 그들은 저위험 평가의 잠재적인 종합 결과에 초점을 맞추는 경향이 있다. 이러한 이유로, 학습을 지원하기 위해 프로그래밍 방식의 평가를 사용하는 것은 여전히 어려운 일입니다.

The primary goal of low‐stake assessment is to support learners' progress. Thus, one low‐stake assessment should have limited consequences for learners. When multiple low‐stake assessments are aggregated, however, they can be used to inform high‐stake performance decisions that have substantial consequences for learners.4 In practice, learners often do not appreciate the value of low‐stake assessments to guide their learning. Instead, they tend to focus on the potential summative consequences of low‐stake assessments.5, 6 For this reason, using programmatic assessment to support learning remains challenging in practice.1, 7, 8

교사들은 (특히 프로그램 평가의 학습 잠재력을 충족시키거나 약화시키는 데 있어) 강력한 역할을 하는 것으로 보인다. 프로그램 평가의 많은 기본 원칙이 새로운 것은 아닐 수 있지만, [평가에 대한 체계적인 접근법]과 [두 가지 목적을 가진 평가 부담의 연속성]은 [전통적인 총괄평가 접근법]과 근본적으로 다르다.9 교사가 평가의 의미와 목적을 완전히 이해하지 못하거나 평가의 기본 철학에 동의하지 않는 경우, 저부담 평가와 저부담 평가의 잠재적 학습 이익은 사소해질 가능성이 높다.4 저부담 평가에서와 같이 평가 목적이 복잡하고 중첩된 상호 작용을 하는 경우, 평가 프로세스는 더욱 복잡해진다. 
Teachers appear to play a particularly powerful role in fulfilling or undermining the learning potential of programmatic assessment.7 Although many of the underlying principles of programmatic assessment may not be novel, the systematic approach to assessment and the continuum of assessment stakes with dual purposes fundamentally differ from traditional, summative approaches to assessment.9 If teachers do not fully understand the meaning and purpose of assessment or do not agree with its underlying philosophy, low‐stake assessments and their potential learning benefits are likely to become trivialised.4 The complex and overlapping interplay of assessment purposes, such as in low‐stake assessments, adds to the already complicated assessment processes.10, 11 

학부 교육의 맥락에서, 사무엘로비츠와 베인은 교사들이 근본적인 이유로 '변혁적' 평가방법에 저항할 수 있으며, 교육적 신념과 가치관을 바꿀 때까지 평가의 혁신을 수용하지 않을 수 있다고 경고한다. 
In the context of undergraduate teaching, Samuelowicz and Bain13 warn that teachers may resist ‘transformative’ assessment methods for fundamental reasons and may not embrace innovation in assessment until they also shift their educational beliefs and values.14 

더 나아가, 교사가 평가를 어떻게 개념화하는지는 [교육 이론이나 기관의 평가 정책]보다는, [교사 개인의 평가 경험]에 더 영향을 받는다. 이러한 신념과 실천 사이의 차이은 특히 교사가 [프로그램 평가에 사용되는 저부담 평가와 같은 이중 목적 평가]에 직면할 때 나타날 가능성이 높다. 예를 들어, 교사는 아래의 두 가지 역할 사이에서 중요한 딜레마를 경험할 수 있다.

  • 학습자의 개발 및 촉진에 대한 지지자 역할
  • 학습자의 성과와 성취도에 대한 평가자로서 판단의 책임.

Furthermore, teachers' assessment conceptualisations are often informed by their personal assessment experiences rather than by educational theory or the institution's assessment policies.10, 12 These differences between beliefs and practices are especially likely to emerge when teachers encounter dual‐purpose assessments,15 such as the low‐stake assessments used in programmatic assessment. For instance, teachers may experience significant dilemmas when navigating between

  • their supportive roles as they monitor and facilitate learners' development and
  • their judgemental responsibilities as assessors of learners' performance and achievement.1101617

 

2. 방법
2. METHODS

우리는 교사들의 평가 개념화와 프로그램 평가 내의 평가 관계를 탐구하기 위해 구성주의자 근거이론 접근법을 사용했다.
We used a constructivist grounded theory approach19, 20 to explore teachers' assessment conceptualisations and assessment relationships within programmatic assessment.

2.1. 샘플
2.1. Sample

프로그램 평가에 대한 중요한 통찰력을 제공하는 것으로 알려진 고유한 연구 설정을 선택하기 위해 극단적인 사례 샘플링 전략을 채택했다.21 우리는 평가의 목적이 저부담과 고부담 모두인 상황에서, 교사가 저부담 평가를 사용해야 하는 연구 설정을 선택했다. 이러한 구현을 위한 포함 기준은 다음과 같다. 

  • (a) 학습 정보를 제공하기 위한 저부담 평가의 사용 
  • (b) 낮은 평가의 집계를 바탕으로 학습자의 진행 상황에 대한 높은 의사 결정을 내린다. 
  • (c) 최소 5년의 장기 프로그램 평가 시행

An extreme case sampling strategy was employed to select unique research settings known to provide significant insights about programmatic assessment.21 We selected research settings that required teachers to use low‐stake assessment in contexts in which assessments have both low‐ and high‐stake purposes. The inclusion criteria for these implementations were:

  • (a) the use of low‐stake assessment to provide information for learning;
  • (b) the making of high‐stake decisions on learners' progress based on the aggregation of those low‐stake assessments, and
  • (c) a long‐term programmatic assessment implementation of at least 5 years.

해당 분야 전문가들의 이전 연구와 제안을 바탕으로 두 개의 의학전문대학원을 선정했다.
Based on previous research and suggestions by experts within the field, we selected two medical schools with graduate‐entry medical programmes:

  • the Physician‐Clinical Investigator Programme at Maastricht University, the Netherlands (Setting A) and
  • the Physician‐Investigator Programme at the Cleveland Clinic Lerner College of Medicine at Case Western Reserve University, Cleveland, Ohio, USA (Setting B).

이러한 의사-연구자 프로그램은 생물의학 연구와 임상 실습의 발전에 중요한 자기 주도 학습 기술을 주입하는 것을 목표로 한다. 두 프로그램 모두 역량 기반 학생(<50명의 학습자)의 소규모 코호트이며, 학습을 육성하기 위해 프로그램 평가 접근 방식을 사용한다. 두 프로그램의 구조와 특성은 표 1과 같다. 추가적으로, 두 프로그램 모두 다른 곳에 자세히 설명되어 있습니다.

These physician‐investigator programmes aim to instil self‐directed learning skills critical for the advancement of both biomedical research and clinical practice. Both programmes are competency‐based, enrol small cohorts of students (<50 learners), and use programmatic assessment approaches to foster learning. The structure and characteristics of both programmes are shown in Table 1. Additionally, both programmes are described in detail elsewhere.5, 22, 23

우리는 기준과 최대 변동 샘플링 전략을 사용하여 의도적으로 참가자를 샘플링했다. 선정된 연구현장에 등록된 학습자 또는 주요 책임이 높은 평가로 학생을 안내하는 피드백 제공에 관련된 학습자를 대상으로 공식적인 책임을 지고 있는 교사를 초빙하였습니다. 

We purposefully sampled participants using criterion and maximum variation sampling strategies. We invited

  • teachers with formal responsibilities as assessors of low‐stake assessment tasks for learners enrolled in the selected research sites or
  • those whose main responsibilities involved providing feedback to guide students towards high‐stake evaluation.

최대 변동은 다음을 기준으로 구되었다. 

  • (a) 프로그램에서 공식적인 역할(예: 튜터, 코치, 의사 고문/교수, 강사, 조정자, 강사/강사) 
  • (b) 저학점 평가 유형(예: 표준화된 강의 과정 시험, 논술, [학점] 과제, 직접 관찰), 
  • (c) 학습자와의 관계의 다양한 길이(짧은 만남에서 종적 관계에 이르기까지)

Maximum variation was sought based on:

  • (a) formal role in the programme (eg, tutor, coach, physician advisor/mentor, lecturer, coordinator, preceptor/supervisor);
  • (b) type of low‐stake assessment (eg, standardised in‐course tests, essays, [research] assignments, direct observations), and
  • (c) variable lengths of relationships with learners (ranging from brief encounters to longitudinal relationships).

 

2.2. 데이터 수집 및 분석
2.2. Data collection and analysis

수석 조사관(SS)은 선별된 모든 참가자들에게 연구를 설명하고 현장에서 반구조적인 개별 인터뷰에 자발적으로 참여하도록 초대하는 이메일을 배포했다. 연구팀은 프로그램 평가와 교사 평가 개념화에 대한 이론적 토대를 바탕으로 개방형 질문으로 구성된 인터뷰 가이드를 설계했다. 이 인터뷰 가이드에는 참가자들에게 다음과 같은 질문이 포함되어 있습니다. 

  • (a) 프로그래밍된 평가 시스템 내에서 저수준 평가의 개념을 설명하고 반영한다. 
  • (b) 프로그래밍 평가에서 교사와 학습자의 역할과 책임을 논의한다. 
  • (c) 프로그램 평가의 맥락에서 학습자와의 상호 작용을 반영한다. 
  • (d) 평가와 학습에 대한 그들의 가치와 신념을 분명하게 표현한다. 

The lead investigator (SS) distributed an email to all selected participants describing the study and inviting them to participate voluntarily in semi‐structured individual interviews on site. The research team designed an interview guide consisting of open‐ended questions based on theoretical underpinnings of programmatic assessment and teachers' assessment conceptualisations. This interview guide included questions that asked participants to:

  • (a) describe and reflect upon the concept of low‐stake assessment within a programmatic assessment system;
  • (b) discuss the roles and responsibilities of the teacher and learner in programmatic assessment;
  • (c) reflect upon their interactions with learners in the context of programmatic assessment, and
  • (d) articulate their values and beliefs about assessment and learning.

 

부록 S1은 초기 인터뷰 지침을 제공합니다. 면접은 프로그램 평가 시행 내 평가와 평가 부담에 초점을 맞췄지만, 참가자는 연구팀이 교사의 평가 개념화와 경험을 완전히 이해할 수 있도록 [과거 평가 경험을 되새기도록reflect upon] 장려했다. 모든 인터뷰는 직접적인 식별자 없이 녹음되고 문자 그대로 옮겨졌다.

Appendix S1 provides the initial interview guide. Although interviews focused upon assessment and assessment stakes within the implementation of programmatic assessment, participants were encouraged to reflect upon previous assessment experiences in order to help the research team fully understand teachers' assessment conceptualisations and experiences. All interviews were recorded and transcribed verbatim without direct identifiers.

데이터 수집과 분석은 반복적으로 수행되어 인터뷰 질문 및 후속 인터뷰에 대한 샘플링 전략의 수정에 필요한 적응을 가능하게 했다.

  • 처음 네 번의 인터뷰초기 코드 개발을 목적으로 오픈 코딩 전략을 사용하여 SS와 SH에 의해 독립적으로 분석되었다. 각 인터뷰에 이어 SS와 SH는 코드와 코드 간의 관계에 대해 논의했습니다.
  • 이러한 논의를 바탕으로, 초기 코드는 주요 개념 주제와 하위 테마 중심으로 구성되었다. 데이터를 조사하고 재조사함으로써 주요 범주 간의 관계를 탐구했다.
  • 초기 코드는 예시반례가 있는 개념 코드로 진화했다. 연구팀(SS SH, BB, ED, JvT 및 CVDV)은 개념 코드를 논의하였다.
  • 예비 분석을 자세히 설명하기 위해, 우리는 이론적 샘플링을 계속 사용하여 프로그램 평가에서 저부담 평가에 대한 추가 관점을 수집했다. 구체적으로는 교사들의 프로그램 평가 경험과 교사 배경(기초과학 배경을 가진 교사 대 임상의)을 바탕으로 표본을 확대했다.
  • 이론적 충분성theoretical sufficiency에 도달할 때까지 데이터 수집과 분석은 계속되었는데, 이는 분석이 프로그래밍 평가의 맥락에서 교사의 평가 개념화를 이해할 수 있는 충분한 통찰력을 제공할 때까지 이러한 데이터 수집 과정을 계속했다는 것을 의미한다.
  • 총 23명의 교사가 참여해 수석조사관(SS)과의 일대일 대면면접에 참여했으며, 표2는 이들 참가자의 특징을 요약한 것이다.

Data collection and analyses were performed iteratively, allowing for necessary adaptations to interview questions and modifications of the sampling strategy for subsequent interviews.20, 24 

  • The first four interviews were independently analysed by SS and SH using an open coding strategy with the aim of developing initial codes. Following each interview, SS and SH discussed the codes and relationships between codes.
  • Based on these discussions, the initial codes were organised around key conceptual themes and sub‐themes. Relationships amongst major categories were explored by examining and re‐examining data.
  • Initial codes evolved into conceptual codes, with examples and counter‐examples. The research team (SS SH, BB, ED, JvT and CvdV) discussed the conceptual codes.
  • To elaborate upon our preliminary analysis, we continued the use of theoretical sampling to gather additional perspectives about low‐stake assessments in programmatic assessment. Specifically, we expanded our sample based on the teachers' experience in programmatic assessment and on teachers' backgrounds (teachers with basic science backgrounds versus clinicians).
  • Data collection and analysis continued until theoretical sufficiency25 was reached, meaning that we continued this data collection process until the analysis provided enough insight to understand teachers' assessment conceptualisations in the context of programmatic assessment.
  • In total, 23 teachers participated in one‐to‐one, in‐person interviews with the lead investigator (SS). Table 2 summarises the characteristics of these participants.

 

SS는 데이터 수집과 분석 과정에서 분석 메모와 도표를 만들어 과정이 논리적이고 체계적이 되도록 했다. 이 메모와 도표들은 연구팀 내에서 논의되었다. 데이터는 2018년 12월부터 2019년 5월 사이에 수집 및 분석되었다. 네덜란드 의학 교육 윤리 검토 위원회(NVMOmoERB 참조 2018.7.4)와 클리블랜드 클리닉 기관 검토 위원회(IRB 참조 18 ref1516)에서 윤리 승인을 받았다.
During data collection and analysis, SS created analytic memos and diagrams to ensure the process was logical and systematic. These memos and diagrams were discussed within the research team. Data were collected and analysed between December 2018 and May 2019. Ethical approval was obtained from the Dutch Association for Medical Education Ethical Review Board (NVMO‐ERB ref. 2018.7.4) and the Cleveland Clinic's Institutional Review Board (IRB ref. 18‐1516).

2.3. 성찰성
2.3. Reflexivity


우리는 연구자로서 이러한 데이터를 수집, 분석 및 해석하는 데 있어 우리가 한 역할을 인정한다. 편견을 완화하기 위해 다학제 연구팀으로 일했습니다. SS는 수석 연구원으로 활동했습니다. SS는 교육과학에 경험이 있고, 연구지 중 한 곳에서 교직원으로 일하며, 선정된 프로그램에 직접적으로 관여하지 않았다. ED와 CVDV는 의료 교육 및 평가 분야의 전문가입니다. 또한 CVDV는 의학 교육에서 프로그램 평가의 이론적 모델의 창시자 중 하나로 간주된다. SH는 보건 과학에 대한 공식적인 훈련과 경험을 가지고 있고, BB는 교수와 연구 방법에 대해 동등한 배경을 가지고 있다. SS와 BB는 모두 선정된 프로그램의 설계와 구현에 프로그램 디렉터로 참여하였으며, CVDV는 전문가로 참여하였다. SH와 BB는 데이터를 수집하는 동안 참가자들과 직접 접촉하지 않았다. JvT는 사회학자로 훈련을 받았으며 교사 교육 전문가입니다. JvT는 터널 비전과 확인 편향을 좌절시키는 데 도움이 되는 외부 관점을 제공하고 사례와 반례를 검토했으며 코드 구축과 데이터 해석 과정을 지원했다.

We acknowledge the roles that we, as researchers, played in collecting, analysing and interpreting these data. To help mitigate bias, we worked as a multidisciplinary research team. SS functioned as the lead researcher. SS has a background in educational sciences, works as a faculty member at one of the study sites, and had no direct involvement in the selected programme. ED and CvdV are experts in the field of medical education and assessment. Furthermore, CvdV is considered as one of the founding fathers of the theoretical model of programmatic assessment in medical education. SH has formal training and experience in the health sciences and BB has an equivalent background in teaching and research methods. Both SS and BB were involved as programme directors in the design and implementation of the selected programmes, as was CvdV as an expert. SH and BB had no direct contact with the participants during data collection. JvT is trained as a sociologist and is an expert in teacher education. JvT provided an outsider perspective to help thwart tunnel vision and confirmation bias, reviewed examples and counter‐examples, and supported the process of code construction and data interpretation.

 

 

3. 결과
3. RESULTS

그 결과, 교사들은 세 가지 다른, 그러나 관련성이 있는 방식으로 [평가의 목적]을 개념화하는 것으로 나타났다. 

  • (a) 학습을 자극하고 촉진하게 하기 위해,
  • (b) 학습자를 다음 단계로 준비시키기 위해, 그리고
  • (c) 교사 자신의 효과를 측정하기 위한 피드백으로 사용하기 위해, 

The results showed that teachers conceptualise the purpose of low‐stake assessment in three different, yet related ways:

  • (a) to stimulate and facilitate learning;
  • (b) to prepare learners for the next step, and
  • (c) to use as feedback to gauge the teacher's own effectiveness.

결과적으로 이러한 관점은 평가를 제공하거나 토론할 때 학습자에 대한 관여에 영향을 미쳤다. 
Consequently, these views influenced their engagement with learners when providing or discussing assessments. 

3.1. 저부담 평가의 개념화
3.1. Conceptualisations of low‐stake assessments

3.1.1. 학습 자극 및 촉진
3.1.1. Stimulating and facilitating learning

교사의 공식적인 위치(예: 튜터, 코치, 의사 조언자 또는 멘토, 과정 감독, 평가자, 교육자)의 차이에도 불구하고, 우리는 저부담 평가의 목적에 대해 [일차적으로 공유된 개념]은 [학습을 촉진하고 용이하게 하는 것]으로 식별했다. 이 개념은 [저부담 평가의 결과가 minimal하다는 점]에 영향을 받았다. '학습자는 이 평가로 fail을 받지 않는다', '등급이 매겨지지 않는다', '저부담 평가는 주로 성과 향상에 관한 것이다'와 같은 문장은 낮은 평가 개념을 반영할 때 참가자 모두가 내렸다. Grades의 사용은 고부담 평가와 밀접한 관련이 있었고, 대부분의 참가자들은 성적 배정이 학습learning에 이롭다고는 생각하지 않았다. 대신, Grades은 순위를 매기고 학습자를 비교하는 평가 목적과 연관되었다. 학습자가 [저부담 평가를 학습의 목적]으로 사용하게 하려면, 교수자는 학습 자극을 주고, 개선을 촉진하기 위해 학습자에게 서술적 피드백을 제공하는 것이 중요하다고 강조했습니다.
Despite the differences in teachers' formal positions (eg, tutor, coach, physician advisor or mentor, course director, assessor, preceptor), we identified a shared primary conceptualisation of the purpose of low‐stake assessments as being to stimulate and facilitate learning. This conception was influenced by the perceived minimal consequences of low‐stake assessment. Statements like: ‘learners can't fail them,' ‘they are not graded’ and ‘low‐stake assessments are primarily about improving performance’ were given by all participants when reflecting on the concept of low‐stake assessments. The use of grades was strongly associated with high‐stake assessments, and most participants did not regard assigning grades beneficial for student learning. Instead, grades were associated with the assessment purposes of ranking and comparing learners. To enable learners to use low‐stake assessments for learning, teachers highlighted the importance of providing learners with narrative feedback in order to stimulate learning and facilitate improvement:

학생들의 석차는 나에게 별로 의미가 없다. 이런 환경에서 [학점을 사용하지 않는 프로그래밍식 평가]가 잘못될 염려가 별로 없으며, [학습자] 그들은 이 시스템으로 석차 등급을 받기 위해 영리하게 보이려고 노력하지 않는다고 생각합니다. (B5, 임상의) 
The rank ordering of students is not that meaningful to me. […] In this environment [programmatic assessment without the use of grades] there is not a fear of being incorrect as much, I think, and they [learners] are not trying to look smart in order to get rank order grades with this system. (B5, clinician)

 

프로그램 수준에서 [성과나 개선에 대한 증거를 수집할 수 있는 기회의 수]는 교사의 평가 개념화와 학습 기회에 영향을 미쳤다.
At a programme level, the number of opportunities for collecting evidence on performance or improvement influenced teachers' assessment conceptualisations and opportunities for learning:

이 프로그램에는 단 한 번의 기회만 주어지기 때문에 진급 위원회는 학습자들이 포트폴리오에 이 평가 결과를 사용할 것으로 예상할 것이다. 
There's only one chance in the programme, and so the progress committee will expect them [learners] to use it [the result of this assessment] in their portfolios, so that raises the stakes tremendously. (B7, basic scientist)

 

프로그램이 다수의 저부담 평가를 촉진하여야, 교사들은 자신들의 책임을 [학습자가 스스로 평가 근거의 경향이나 패턴을 발견하도록 지원하는 것, 성찰을 자극하는 것, 학습 목표와 잠재력에 도달하기 위한 학습자의 개선 계획을 가능하게 하는 것]으로 개념화할 수 있었다. 또한, 다수의 저부담 평가에 따른 결과는 제한적이라고 인식했기 때문에, 교사들이 학습자에게 정직하고 건설적인 피드백을 제공할 수 있는 더 나은 기회를 만들었다.
When the programme facilitated multiple low‐stake assessments, teachers conceptualised their responsibility as being to support learners in discovering trends or patterns in assessment evidence, to stimulate reflection, and to enable learners' improvement plans for reaching learning goals and perceived potential. Furthermore, multiple low‐stake assessments created better opportunities for teachers to provide learners with honest and constructive feedback because they perceived limited consequences:

왜냐하면 누군가 처벌받지 않고도 향상될 수 있다는 것을 안다면, 문제가 되는 것에 대한 정보를 주지 않을 이유가 없다. 반면 다른 환경에서는 '누구도 곤경에 빠뜨리고 싶지 않은 마음'때문에, 학습자가 잘하고 있는 것만 부각시키고, 잘 하지 못하는 것에 대해서는 침묵하는 습관이 생긴다고 생각한다. 
I think it's liberating in a lot of ways, because if you know that somebody can improve without being punished, there is no reason to not give them the information about something that is problematic. Whereas I think that in other settings, it feels like people get into the habit of highlighting things that learners are doing well and just being quiet about things that are problematic because ‘I don't want anybody to get in trouble.' (B8, clinician)


3.1.2. 학습자 다음 단계 준비
3.1.2. Preparing learners for the next step

학습learning에 더하여, 교사들은 저부담 평가를 [학습자가 고부담 평가나 향후 실습을 대비할 수 있는 방법]으로 생각했다. 이러한 평가 개념화는 교사들이 학습을 촉진하는 방식에 큰 영향을 미쳤다. 교사들은 학습자들이 '적절한 준비를 하고 있는지' 확인하기 위해서는 보다 [직접적인 접근]이 필요하다고 생각했다. 중요한 것으로 여겨지는 것은 기초 과학자와 임상의 사이에 차이가 있었다.
In addition to learning, teachers also thought of low‐stake assessments as a way to prepare learners for high‐stake assessments or for future practice. This assessment conceptualisation strongly influenced how teachers facilitated learning: teachers thought a more directive approach was required to ensure learners were ‘properly prepared.' What was considered important differed between basic scientists and clinicians.

교육과정에서 [기초과학 관련 교육]를 담당하는 대부분의 교사는 지식평가를 강조했다. 그들은 지식을 역량에 필수적인 것으로 여겼고, 대부분의 학습자는 지식 테스트를 통과할 수 있어야 한다고 믿었다.
Most teachers with teaching tasks related to the basic sciences within the curriculum emphasised assessment of knowledge. They regarded knowledge as fundamental for competence, and most believed learners should be able to pass a knowledge test:

내가 보기에 이것들은 그들이 특정한 시점에서 취해야 할 중요한 장애물들이다. […] 만약 당신이 그 기준을 충족시킬 능력이 없다면, 당신은 충분한 지식과 통찰력을 가지고 있고, 이것은 결과를 가져올 필요가 있다. (A1, 기초과학명언) 
In my view these are important hurdles which they [learners] have to take at certain points. […] If you are not capable of meeting those standards, you have insufficient knowledge and insights, which needs to have consequences. (A1, basic scientist)

 

그러나 [임상의]들은 [전반적인 임상 역량]에 초점을 맞추는 경향이 있었다. 지식 테스트는 중요하고 종종 근본적인 것으로 여겨졌지만, [지식의 차이는 학습자가 쉽게 고칠 수 있는 것]으로 인식되었다. 인터뷰한 많은 임상의에 따르면, 이러한 테스트는 학습자가 '실제' 임상 실습을 준비하는 데 덜 중요한 것으로 간주되었다.
Clinicians who participated in this study, however, tended to focus on overall clinical competence. Although knowledge testing was considered important and often fundamental, gaps in knowledge were perceived as being easy for learners to remediate. According to many of the clinicians interviewed, these tests were considered as less important for preparing learners for ‘real’ clinical practice:

나는 [지식 시험]은 [의사가 되는 것이 무엇을 의미하는지]를 반영하지는 못한다고 생각한다. 
I don't think they [knowledge tests] reflect what it means to be a physician. (B4, clinician)

 

임상의는 주로 학습자를 향후 실습에 대비시키기 위해 저부담 평가(low-stake assessment)를 사용했다.
Clinicians used low‐stake assessment mainly to prepare learners for future practice:

저는 저부담평가가 평가를 준비하는 과정에서 학생들이 기술을 향상시키는 방법들 중 하나라고 생각합니다. 그렇게 함으로써 clinical years에 맞게 최적화하게 한다. (A3, 임상명언)
I think that is one of the ways that they improve their skills [by] preparing them and making sure they are optimised for [the] clinical years. (A3, clinician)

 

[외부의 고부담 지식 평가]가 포함된 경우에서는 예외가 발견되었습니다. 모든 교사는 학습자가 졸업 또는 면허 요건을 충족시키기 위해 높은 평가를 통과해야 한다는 것을 이해했으며, 평가의 의미가 있는지 여부에 관계없이 이러한 평가에 대한 준비를 중요하게 여겼습니다.

Exceptions were found when external, high‐stake knowledge assessments were involved. All teachers understood that learners must pass high‐stake assessments to meet either graduation or licensure requirements and considered preparing learners for such assessments an important responsibility, whether they considered the assessment meaningful or not:



3.1.3. 교사에 대한 피드백으로서 낮은 평가
3.1.3. Low‐stake assessments as feedback for teachers


저부담 평가가 teaching practice과 teacher themselves에 가지는 가치가 있었다. 교사들은 저부담 평가를 학습 목표 달성에 있어 학습자의 진행 상황을 진단하고, 교정 조치가 필요하다고 생각되는 학습자를 식별하며, 학습자의 수행 기준 달성을 모니터링할 수 있는 기회로 개념화했다. 일부 교사들은 평가가 개인적, 전문적 발전에 미칠 수 있는 상호적 이익을 높이 평가했으며, 이는 성찰적인 태도를 자극했다.

Low‐stake assessment also carried value for teaching practices and teachers themselves. Teachers conceptualised low‐stake assessments as representing opportunities to diagnose learners' progress in acquiring learning objectives, to identify learners they thought required remediation, and to monitor learners' achievement of performance standards. Some teachers appreciated the reciprocal benefits low‐stake assessment may have upon their personal and professional development, which stimulated a reflective attitude:

학생에게는 배움의 기회이지만, 저에게는 배움의 기회이기도 합니다. 그것은 또한 내가 무엇을 하고 있는지, 무엇을 개선할 수 있는지에 대해 생각하게 한다. 
It's a learning opportunity for the student, but, really, it's also a learning opportunity for me. It forces me to be reflective too, and think about what I'm doing, and what could be improved. (B4, clinician)

 

선생님들은 자신의 교육적 효과성에 대한 정보를 얻기 위해 저부담 평가들에 의존했다. 교사는 저부담 평가에서 학습자의 성과를 자신의 성과를 명시적이고 직접적인 지표로 인식하여 다음과 같이 평가하였다.
Teachers relied on low‐stake assessments to inform them about their effectiveness. Teachers perceived learners' performances on low‐stake assessments as explicit and direct indicators of their own performance, thereby making these assessments of higher stakes for teachers:

저에게는 [표준화된 지식 테스트]가 매우 중요한 순간이며, 학생들이 시험을 잘 볼 때 마음이 놓이고 매우 행복합니다. 내가 잘했다는 뜻이다.
For me it's [standardised knowledge test] a high‐stake moment, and I'm relieved and very happy when students perform well on the test. It means I did a good job. (A1, basic scientist)

 

이러한 관찰은 교사가 임상실습이나 로테이션 중에 개별 학습자를 감독할 때와 같은 임상적 맥락에도 적용된다.
This observation also applied to clinical contexts, such as when teachers supervised individual learners during a clerkship or rotation:

그래서 이 학생이 저와 함께 일해왔다는 사실이, 이 학생이 바로 여기 있다는 것이 나에 대한 어떤 반영reflection인 것 같다. 그래서 마치 부담이 더 크게 느껴지기도 한다. 우리는 이 학생을 다음 preceptor에게, 그리고 결국 현실 세계로 내보내기 때문이다. (B8, 임상의)
And so this idea that this person has worked with me and this is where they are, I feel like it is a certain reflection of me and so then it feels like the stakes are higher as part of it, we are sending them out to the next preceptor and in the end, into the real world. (B8, clinician) 


3.2. 평가 관계에서 학습자와의 교사 참여
3.2. Teachers' engagement with learners in assessment relationships

3.2.1. 안전하지만 생산적인 관계 만들기
3.2.1. Creating safe but productive relationships

교사의 평가 개념화가 학습에 대한 평가 사용에 초점을 맞출 때, 교사들은 안전한 교사-학습자 관계를 만들어야 할 강한 필요성을 나타내며, 교사들은 이를 '돌봄', '따뜻함', '접근 가능', '동반자 관계'와 같은 단어를 사용하여 설명하였다. 교사들은 학습자들이 평가에 대한 인식이 다른 경우가 많다는 것을 알고 있었고, 교사들은 학습자들을 평가 시스템의 근본적인 철학에 대한 방향을 잡아야 할 책임이 있었다. 교사들은 학습자가 실패하거나 실수할 수 있는 '저부담' 학습 환경을 조성하고, 저부담 평가를 활용해 수행능력을 높이는 것이 자신들의 책임이라고 봤다. 교사들은 학습자와의 파트너십을 통해 기쁨을 얻었고, 프로그램 평가의 기본 철학이 (기존의 평가 방식보다) 실세계의 practice와 더 잘 부합한다고 여겼으며, 따라서 학습자와의 assessment practice는 더욱 의미 있고 관련성이 있었다.
When teachers' assessment conceptualisations focused on the use of assessment for learning, teachers indicated a strong need to create safe teacher‐learner relationships, which they described using words such as ‘care,' ‘warmth,' ‘accessible’ and ‘partnership.' Teachers were aware that learners often had different perceptions of assessment, and teachers took responsibility for orienting learners to the underlying philosophy of the assessment system. Teachers believed it was their responsibility to create a ‘low‐stake’ learning environment in which learners could fail or make mistakes, and to use low‐stake assessment to improve their performance. Teachers gained joy from partnering with learners and viewed the underlying philosophy of programmatic assessment as better aligned with real‐life practice than traditional assessment approaches, thereby making their assessment practices with learners more meaningful and relevant:

제가 하는 일은, 더 이상 수문장이 되거나 학생들이 졸업하지 못하게 하는 것이 아니라, 학생들이 성공할 수 있도록 돕는 것입니다. 이제 제 일은 '더 좋아지고 있나요?' 입니다. '넌 끝났어' 라고 말하는 것보다 그 역할에 대해 훨씬 더 기분이 좋다.

My job is not to be a gatekeeper anymore or keep students from graduating, but to help students be successful. My job now is: ‘Are you getting better?’ I feel much better about that role than [about] saying: ‘You are done.’ (B11, clinician)

 


그럼에도 불구하고, 교사들은 안전한 학습 환경을 유지하고 학습자와의 생산적인 작업 및 평가 관계를 유지하는 것 사이에서 올바른 균형을 이루는 데 초점을 맞췄다. 이것은 [교사-학습자 관계에서 일정 거리]를 요구하는 것으로 나타났다. 교사들은 이 관계가 전문적일 필요가 있다고 생각했다.
Nevertheless, teachers focused on striking the right balance between maintaining safe learning environments and preserving productive working and assessment relationships with learners. This appeared to require a certain distance in the teacher‐learner relationship. Teachers thought the relationship needed to be professional:

그들은 내 친구나 뭐 그런 사람들이 아니다. 나는 내가 접근하기 쉬운 것이 중요하다고 생각하지만, 
일정한 경계선이 있다; 그것은 전문적인 관계를 유지해야 한다.

They [learners] are not my friends or anything. I think it's important that I'm approachable, but there are certain boundaries; it needs to stay a professional relationship. (A19, clinician)

모든 교사들은 평가의 맥락에서 학습자들에게 너무 가까이 가거나 지나치게 친숙해지지 않는 것에 대해 명백했다.
All teachers were explicit about not getting too close to or overly familiar with learners in the context of assessment; teachers wanted to minimise undue influences of their personal biases.

 

3.2.2. 통제력 확보 대 독립성 허용
3.2.2. Taking control versus allowing independence

학습자가 학습에 대한 책임을 질 수 있도록 하겠다는 의도를 교사들이 분명히 밝혔지만, 거의 모든 교사들은 [결국 평가 과정을 통제해야 한다]고 믿었다. 교사들은 이것이 그들의 공식적인 위계적 위치와 그들의 경험과 전문지식이 학습자들의 것과 비교한 자연스러운 결과라고 지적했습니다. 이러한 통제의 필요성은 [의도된 학습 목표]와 임상적 맥락에서 [환자 안전]에 관한 교사의 고부담 책임으로 더욱 강화되었다.
Although teachers were explicit about their intention to allow learners to take responsibility for learning, almost all teachers believed that, in the end, they should control the assessment process. Teachers indicated that this was a natural consequence of their formal hierarchal position and their level of experience and expertise compared with those of learners. This need for control was further augmented by teachers' high‐stake responsibility concerning intended learning objectives and, in a clinical context, patient safety:

하지만 내가 통제하고 있다. 내 말은, 그들이 배우고 있는지 확인하는 게 내 책임이라는 것이다[…] 해야 할 일과 배워야 할 일이 있습니다. 내가 그들에게 맡긴다면… 누가 알겠어요? 그래서, 나는 정말로 그것을 통제할 수 있어야 합니다. […] 누군가가 무언가를 할 수 있도록 허락하기 전에 그 일을 할 수 있는 기술을 갖추고 있는지 확인해야 한다. (B4, 임상의명언)
But I am in control. I mean, I am, you know it is my responsibility to make sure they are learning. […] There are things that need to be done and that they have to learn. If I left it to them… who knows? So, I really need to be able to control it. […] You have to make sure that someone is skilled in doing something before you allow them to do it. (B4, clinician)

 

프로그램 평가에서 [초보 교사]들은 경험이 많은 교사들보다 [평가 과정에 대한 더 많은 통제]를 원했다. 프로그램 평가 경험이 제한적인 이들은 자신의 지식과 프로그램 요구 숙련도, 평가 시스템 전체의 효율성에 대해 불확실성의 목소리를 높였다. 그 결과, 그들은 지침과 지원의 질에 대한 높은 압력을 인식하였고, 학습자가 프로그래밍 방식의 평가에 대한 경험이 부족하기 때문에 불이익을 받을 수 있다고 우려하였다. [학습자의 자율성을 명시적으로 중시하는] 경험이 풍부한 교사일수록, 학습자가 평가 과정을 추가로 통제할 수 있도록 하는 데 더 편안해 보였다. 이는 [학습자의 능력과 역량에 대한 교사들의 신념]에 크게 영향을 받았다.
Novice teachers in programmatic assessment desired more control of assessment processes than experienced teachers. Those with limited experience with programmatic assessment voiced uncertainties about their knowledge and proficiency with programme demands and the effectiveness of the assessment system as a whole. As a result, they perceived a high level of pressure on the quality of their guidance and support and feared that learners might be penalised as a result of their lack of experience with programmatic assessment. More experienced teachers, who explicitly valued learners' autonomy, seemed more comfortable with allowing learners to take additional control over assessment processes. This was strongly influenced by teachers' beliefs in learners' abilities and competencies:

나는 학생 개개인의 필요에 적응하는 것이 중요하다고 생각한다. 독립에 대한 필요성은 시간이 지남에 따라 증가한다.
I think it's important to adapt to individual student needs […], the need for independence grows over time. (A21, basic scientist)

3.2.3. 평가관계의 충돌
3.2.3. Conflicts in assessment relationships

교사들이 교사-학습자 평가 관계에서 인지할 수 있는 [잠재적 갈등]은, 교사들이 [문제가 있거나 저조한 학습자들]과 상호작용할 때 발생할 가능성이 가장 높은 것으로 보인다. 교사들은 학습자에게 건설적이거나 비판적인 피드백을 제공하는 것에 대해 불편함을 토로하였으며, 관계를 지속하는 것에 대해 우려했다.
The potential conflicts teachers were able to perceive in teacher‐learner assessment relationships seemed most likely to occur when teachers interacted with problematic or underperforming learners. Teachers voiced discomfort about providing learners with constructive or critical feedback and worried about preserving relationships:

'내가 [그들이 해야 할 일을 하지 않았다는 것]을 밝혀야 할 사람이다'라는 불편함이 내가 의학 교육자가 되기로 선택한 이유는 아니라고 생각한다.
I think that discomfort with ‘I'm the one that is going to have to identify that they haven't done what they're supposed to do,' is not why I chose to be a medical educator. (B8, clinician)

 

게다가, 교사들은 그들의 불편함을 느끼는 이유는, 어려움을 겪고 있는 학습자들을 위해 [추가적인 미팅과 더 광범위한 피드백]과 같은 더 많은 슈퍼비전을 제공할 필요가 있다는 필요성을 느끼기 때문이라고 말했다. 이로 인해 학습자 성과에 대한 최종 고부담 의사 결정에서 실제로 평가되는 것이 무엇인지에 대한 우려가 제기되었다. 즉, 교사의 멘토링과 피드백 기술인가? 아니면 학습자의 성과와 진전인가?
Furthermore, teachers attributed their discomfort to the perceived need to provide more supervision for struggling learners, such as additional meetings and more extensive feedback. This raised concerns about what would actually be assessed in the final high‐stake decision on learner performance: the teacher's mentoring and feedback skills or the learner's performance and progress?

[진급 위원회가 고부담 성과 결정에 대한 책임을 지고, 교사-학습자 평가 관계의 외부 당사자 역할을 할 때] 어려움을 겪고 있는 학습자와의 생산적인 작업 관계는 유지하기가 더 쉬웠다. 더욱이 교사들은 프로그램적 접근법에서 평가 결정을 공유된 책임shared responsibility으로 개념화하였는데, 이는 대부분 이전의 평가 경험에서 긍정적인 변화를 나타내는 것으로 인식되었다.
A productive working relationship with struggling learners was easier to maintain when progress committees assumed responsibility for high‐stake performance decisions and functioned as external parties to teacher‐learner assessment relationships. Moreover, teachers conceptualised assessment decisions within a programmatic approach as a shared responsibility, which most perceived as representing a positive change from their previous assessment experiences:

사람이 더 필요하다. 우리는 서로의 관점을 고쳐주고, 서로에게 도움이 되는 것을 제공한다. 그것은 또한 학생들을 위해 그것을 더 안전하게 만든다. […] 다수의 지혜가 소수의 지혜보다 낫다. (B11, 임상명언)
You need more people. We kind of correct each other's perspectives on things and offer things that are helpful. That also makes it safer for the student. […] The wisdom of several is better than the wisdom of some. (B11, clinician)

 

4. 토론
4. DISCUSSION

 

프로그램 평가 내의 평가 연속체는 이론적으로 하나의 극단('평가에 대한 학습적learning 개념')에서 반대 극단('평가에 대한 결산적accounting 개념')으로 흐르지만, 각각의 단일 저부담 평가는 이중의 목적을 가지고 있다. 대부분의 교사들은 저부담 평가의 [학습적 개념]에 초점을 맞췄다. 그러나 '학습'이 학습자의 고부담 평가 준비로 인식되고, 교사가 교사의 책무성을 강조하는 상황에서, 교사들은 [결산적 개념]으로 평가를 개념화하는 쪽으로 이동했고, 보다 지시적이고 통제적인 어조를 띠었다. [고부담 평가]로 평가를 개념화하게 되면 teaching to the test의 위험을 가지고 있었으며, (그 시험이 의미가 있건 없건) 특히 외부 고부담 평가가 결부된 상황에서 그러했다.

The assessment continuum within programmatic assessment theoretically flows from one extreme (the ‘learning conception of assessment’) to the opposite extreme (the ‘accounting conception of assessment’) yet holds a dual purpose in each single low‐stake assessment.2, 3 Most teachers focused on a learning conception of low‐stake assessment. However, when ‘learning’ was conceived as preparing learners for high‐stake assessment and when teachers emphasised teachers' accountability, teachers' assessment conceptualisations actually moved towards the accounting end of the continuum and carried a more directing and controlling tone. Such conceptualisations risk teaching to the test, whether it is considered meaningful or not, especially when external high‐stake assessments are involved.

Stiggins는 외부평가의 이러한 부정적인 영향을 설명하였는데, Stiggins는 [책무성accountability에 목적을 둔 중앙집중식 평가]가 개별 교사들의 교육정보 요구를 충족할 수 없으며, assessment practice을 경시trivialising할 위험이 있다고 언급하였다. 비록 본 연구 결과에 따르면, 프로그램 평가를 도입함으로써 교사의 초점을 [학습자가 시험을 통과하는데 필요한 지식과 기술의 수용성]에서 [지속적인 전문적 발전과 임상 역량]으로 전환시킬 수 있다는 것을 보여주었지만, 고부담 시험, 특히 표준화된 시험은 이 변화shift의 발생을 가로막을 수 있다. 

This adverse impact of external assessment has been described by Stiggins,26 who notes that centralised assessment for accountability purposes cannot meet the instructional information needs of individual teachers and may run the risk of trivialising their assessment practices. Although the results showed that the implementation of programmatic assessment could enable a shift in teachers' focus on the acquiral of the knowledge and skills necessary for learners to pass a test to a focus on continuous professional development and clinical competence, high‐stake and especially standardised examinations could impede the occurrence of this shift.

이 연구의 결과는 또한 교사들이 [학습자의 수행과 진도를 바탕으로 자신의 교육 효과성을 측정]할 때, 저부담 평가의 이해관계가 교사들에게도 중요해진다는 것을 보여주었다. 이것은 왜 그렇게 많은 교사들이 양질의 학습자 성과와 수행 표준의 달성을 보장하기 위해 평가 과정을 통제하고자 하는지 설명할 수 있다. 본 연구의 교사들은 [학습자가 갖는 의존적인 입장]을 알고 있었으며, [교사-학습자 평가 관계를 설명할 때 역설을 표현]했다. 교사-학습자 파트너십, 학습자 독립성 및 학습자 자기 조절 능력에 대한 평가는 교사가 평가 과정의 통제를 줄이기에 충분하지 않은 것으로 보였다. 교사들은 [학습자의 수행능력이나 역량]이 ['좋은' 실천에 대한 교사의 인식이나 확립된 기준]과 일치해야만, [평가 과정을 통제할 수 있는 더 많은 권한을 학습자에게 부여empower했다]고 인정했다. 
The results of this study further showed that the stakes of low‐stake assessment are just as much involved for teachers when teachers gauge their effectiveness based on learners' performance and progression. This may explain why so many teachers desire to control assessment processes to ensure high‐quality learner performance and achievement of performance standards. Teachers in our study were aware of the learner's position of dependency and expressed a paradox when describing teacher‐learner assessment relationships. The valuing of teacher‐learner partnerships, learner independence and learner self‐regulation abilities did not appear to be sufficient for teachers to lessen their control of assessment processes. Teachers admitted that they empowered learners to take more control over assessment processes only when the learner's performance or competence aligned with the teacher's perceptions of ‘good’ practice or established criteria.

이렇게 [교사들이 [무엇이 good practice을 구성하는지]를 일방적으로 결정하는 것]은 [자기조절이라는 목표]와는 상충되는 것으로 보이며, 평가가 학습을 위해for 사용될 경우 역효과적으로 작용할 수 있다. 게다가, [교사가 통제에 대한 필요성을 느끼는 것]은 [학습자들이 종종 저부담 평가를 저부담으로 인지하지 못하는 이유]를 설명할 수 있다. 많은 학자들이 [학습과 평가 환경 내에서 행동하고, 통제하며, 선택을 할 수 있는 학습자의 능력]으로 정의되는 [학습자 행위자성agency]의 중요성을 강조하고 있다. 또한 학습자 스스로도 [학습을 위해 평가를 사용할 수 있는 행위자성agency의 중요성]을 제기하고 있다. 여기에도 [신뢰와 통제 사이의 긴장]이 여전하다. [학습을 위한 평가AoL를 촉진하게 하기 위해, 학습자가 안전한 저부담 환경을 누릴 수 있도록] 하려면, 교사들을 위한 [지지적 저부담 환경 조성]에도 집중해야 한다. 교사와 학습자 모두에게 이해관계가 걸려있으며, 단일 평가의 낮은 consequence만큼 간단하지 않다.

This unilateral determination by teachers of what constitutes good practice seems at odds with the objective of self‐regulation27, 28, 29 and could work counterproductively when assessment is intended to be used for learning. Furthermore, this need for control on the part of the teacher may explain why learners so often fail to perceive low‐stake assessments as being truly of low stakes and beneficial for their learning.5, 6, 7, 30 The importance of learner agency, defined as the learner's ability to act, control and make choices within the learning and assessment environment, is voiced by many scholars.1, 31, 32 Moreover, learners themselves have voiced the importance of agency to enable the potential of using assessment for their learning.7 Here too lingers the tension between trust and control. If we want learners to enjoy a safe low‐stake environment in order to facilitate assessment for learning, then we should focus on creating supportive low‐stake environments for teachers as well. Stakes are involved for both teachers and learners, and they are clearly not as straightforward as the low consequence of a single assessment.

교사들이 학습에 저부담 평가를 사용하도록 서포트하는 것으로 보이는 [두 가지 중요한 프로그램 평가 설계 특]징을 식별했다. 

  • (a) 다수의 저부담 평가를 사용하는 것. 특히 Grades를 사용하지 않는 것.
  • (b) 독립적인 제3자를 평가 관계에 도입하는 진행 위원회의 실행. 

The results also identified two important programmatic assessment design features that seemed to support teachers' use of low‐stake assessment for learning:

  • (a) the use of multiple low‐stake assessments, especially those without the use of grades, and
  • (b) the implementation of progress committees, which introduces an independent third party into the assessment relationship.

첫째, 다수의 저부담 평가와 다수의 평가자를 사용하는 원칙은 교사가 학습자에게 보다 정직하고 비판적인 피드백을 제공할 수 있게 해주었고, 의학교육의 '실패실패 failure to fail'에 비추어 볼 때 프로그래밍 평가 접근법의 유망한 설계 특징이다. 이전 연구에서는 [평가 증거가 서로 다른 맥락과 출처에서 근원했을originate 때], 진급 위원회와 학습자 모두 낮은 평가 증거의 품질을 더 높게 평가하는 것으로 나타났다. 따라서 [프로그램에서 제공되는 평가 증거 수집 기회의 숫자]는 복수의 이해관계자가 관여된 상황에서 [평가의 부담과 학습적 가치에 대한 인식]에 큰 영향을 미친다. 또한, 성적의 사용과 달리 [서술적 피드백의 강조]는 비교, 순위 및 경쟁이 아닌 숙달과 진보를 강조하기 때문에 학습 평가를 가능하게 하는 핵심 설계 요소로 인식되었다. 성적의 사용과 관련된 위험과 학습을 촉진하기 위한 서술적 피드백의 중요성은 다른 많은 사람들에 의해 강조되어 왔다. 

First, the principle of using multiple low‐stake assessments and assessors enabled teachers to provide more honest and critical feedback to learners, which, in light of medical education's ‘failure to fail’33 is a promising design feature of the programmatic assessment approach. Previous research has shown that both progress committees and learners rate the quality of low‐stake assessment evidence more highly when assessment evidence originates from different contexts and sources.34 Thus, the number of opportunities for collecting assessment evidence provided by the programme strongly influences the perceptions of assessment stakes and learning value for the multiple stakeholders involved.7, 34 Furthermore, the emphasis on narrative feedback, as opposed to the use of grades, was perceived as a key design factor to enable assessment for learning because such feedback emphasises mastery and progress instead of comparison, ranking and competition. The risks associated with the use of grades and the importance of narrative feedback to promote learning have been highlighted by many others.1, 30, 35, 36, 37 

둘째, 교사들은 평가의 맥락에서 학습자들과의 파트너십을 즐기고, 학습자들과 생산적인 업무 관계에 참여하기 위해 투자했습니다. 비록 일부 교사들에게 저부담 평가의 이중 목적이 불편한 결혼 생활unhappy marriage을 계속해서 나타낼 수 있지만, 우리의 결과는 역할 갈등이 꼭 필요한 것은 아님을 보여주었다. 프로그램 평가에서 다자 역할 멘토링에 대한 연구에서도 유사한 발견이 나타났습니다. 본 연구에서는, [어려움을 겪고 학습능력이 떨어지는 학습자]에 대해서만 갈등이 보고되었다. (임상 역량 위원회로도 사용되고 있는) [독립적인 진급 위원회의 운영]은 교사들이 평가 맥락에서 생산적인 교사-학습자 관계를 보존하면서, 이러한 갈등을 보다 쉽게 처리할 수 있는 기회를 만들었다.
Second, teachers enjoyed partnering with learners in the context of assessment and invested in engaging in productive working relationships with learners. Although for some teachers the dual purpose of low‐stake assessment may continue to represent an unhappy marriage, our results showed that a role conflict is not necessary. Similar findings emerged in a study on multiple‐role mentoring in programmatic assessment.38 Conflicts in our study were reported only in relation to struggling and underperforming learners. The implementation of independent progress committees, also in use as clinical competency committees,39 created opportunities for teachers to deal with this conflict more easily when preserving a productive teacher‐learner relationship in an assessment context.

 

우리의 연구 결과는 프로그래밍 방식의 평가의 다른 구현에 도움이 될 수 있다. 선생님들은 평가로 학습자에게 불이익이 가는 것에 대해 걱정합니다. 진급 위원회는 잘 조직되면 서포트, 전문지식, 그리고 무엇보다 프로그램 평가에 참여하는 [교사들을 위한 안전망]을 제공한다. 학생의 실패는 [집단적인 책임]이 되고, 학습자의 커리어는 [개인의 결정이나 제한된 스냅사진]에 의존하지 않는다. 이것은 교사들로부터의 압력의 일부를 제거해주는 것으로 보이며, 그들이 더 솔직한 건설적인 피드백을 제공할 수 있게 해주고, 장기간 참여prolonged engagement의 이점을 유지하면서도, 우려를 제기할 수 있게 한다. 나아가, 진급 위원회에 참여하는 것은 [평가 목표에 대한 교사들의 공통된 이해]에 기여하고, 프로그램 평가에서 평가자로서의 역할에 대한 교사들의 전문적인 발전에 도움이 되는 것으로 보인다.
Our findings may benefit other implementations of programmatic assessment. Teachers worry about disadvantaging learners with assessment. A progress committee, when organised well, provides support, expertise and, more importantly, a safety net for teachers involved in programmatic assessment. Failure of a student becomes a collective responsibility and learners' careers do not rest on decisions made by individuals or on limited snapshots. This seems to take some of the pressure from teachers and allows them to provide more honest constructive feedback or to raise concerns when preserving the benefits of prolonged engagement.4 Furthermore, participating in progress committees seems to contribute to teachers' shared understanding concerning assessment objectives and benefits teachers' professional development in their roles as assessors in programmatic assessment.

저부담 평가에 대해서 교사마다 서로 다르게 개념화한다면, 평가에 대해 다양한 믿음을 가질 가능성이 있다. 그리고 그 중 적어도 일부는 PA의 근본적인 평가 철학에 반할 수 있다. 학생들이 의료연수 중 많은 다양한 교사를 만나다 보니 프로그램에 사용되는 의도나 평가방법과 맞지 않는 평가에 대한 가치관이나 신념이 다른 교사를 만나게 될 가능성이 높다. 이는 학습자가 [양립할 수 없는 평가 목표나 메시지를 경험]하고, 냉소적으로 '그냥 해달라는 대로 해줘' 접근방식을 따르도록 유도할 가능성이 있으며, 이는 [학습을 위한 평가]의 의미 있는 활용을 방해할 수 있다. 더욱이, 교사들은 프로그램 평가와 같은 [복잡한 이중 목적 시스템]이 [그들의 근본적인 신념과 일치하지 않을 경우 거부하거나 무시]할 수 있다. 교수개발은 프로그램 평가의 기본 원칙과 교사의 평가 개념화에 초점을 맞춰야 한다. 이러한 원칙이 학습자와 평가 관계에 참여할 때 평가 실무에 영향을 미칠 수 있기 때문이다. 
The different conceptualisations of low‐stake assessment indicate that teachers are likely to hold varying beliefs about assessment, at least some of which may be contrary to the underlying assessment philosophy advocated by its developers. As students encounter many different teachers during medical training, it is likely that they will encounter teachers with different values or beliefs about assessment that do not align with the intentions and assessment methods used in a programme. This risks the possibility that learners will have experiences of irreconcilable assessment objectives or messages and lead them to follow a cynical ‘give them what they want’ approach,13 which would hinder a meaningful uptake of assessment for learning. Moreover, teachers may resist or dismiss innovative assessment methods and complex dual‐purpose systems, like programmatic assessment, if these methods and approaches do not align with their fundamental beliefs about education and teaching.13 Faculty development should focus on the underlying principles of programmatic assessment and teachers' assessment conceptualisations as these may affect their assessment practices when engaging with learners in assessment relationships. 

4.1. 제한사항
4.1. Limitations

우리의 연구결과는 여러 가지 한계점에 비추어 고려되어야 한다.

  • 첫째, 이 연구는 두 가지 고유한 프로그램 평가 구현(즉, 동기 부여가 높은 학습자와 교사 모두를 선택한 기준을 사용한 작은 코호트 크기)을 포함했다. 우리는 미래의 연구와 실습을 안내하는 교훈이 될 수 있는 메커니즘에 대한 통찰력을 제공하는 능력을 고려하여 소위 극단적인 경우를 의도적으로 조사했다.
  • 둘째, 평가는 학습자, 과제, 교사 및 상황 특성의 복잡한 상호 작용으로 다른 맥락으로의 일반화는 쉬운 일이 아니다. 교사의 역할과 책임은 프로그램, 기관, 문화적 맥락에 따라 다를 수 있다. 공식적인 역할과 평가 책임의 최대 변화를 의도적으로 추구함으로써, 우리는 프로그램 평가에서 교수와 평가의 근본적인 개념화에 초점을 맞췄다.
  • 셋째, 이 연구는 교사들의 현실에 대한 인식을 탐구했습니다. 교사들이 믿고 실천했다고 보고한 것과 실제로 믿고 실천하는 것 사이에는 차이가 있을 수 있다.
  • 마지막으로, 우리는 직접 요청 이메일에 대한 응답으로 참여를 자원한 교사들을 모집했기 때문에, 선택 편향을 도입했을 수 있습니다.

Our findings should be considered in the light of a number of limitations.

  • First, this study included two unique implementations of programmatic assessment (ie, a small cohort size, using criteria that selected both highly motivated learners and teachers). We purposefully investigated these so‐called extreme cases in view of their ability to provide insight into the mechanisms underlying implementations, which can serve as lessons to guide future research and practice.19 
  • Second, assessment is a complex interaction of learner, task, teacher and context characteristics,40 which makes generalisations to other contexts challenging.41 Teachers' roles and responsibilities can vary amongst programmes, institutions and cultural contexts. By purposefully seeking maximum variation in formal roles and assessment responsibilities, we focused on the underlying conceptualisation of teaching and assessment in programmatic assessment.
  • Third, this study explored teachers' perceptions of their reality. There may be differences between what teachers report they believe and intend to do versus what they actually believe and do.
  • Finally, we may have introduced selection bias as we recruited teachers who volunteered to participate in response to a direct solicitation email.

 

 

5. 결론
5. CONCLUSIONS


교사들의 저부담 평가 개념화는 학습에만 초점을 맞추지 않는다. [교육 효과를 모니터링하기 위한 평가의 사용]은 교사의 [평가 행위]과 교사-학습자 [평가 관계]에 긴장을 조성할 수 있다. 평가 개념화에서 교사의 관점을 이해하는 것은 학습 실무에 대한 평가와 일치하도록 그러한 개념화에 영향을 미치거나 변경하기 위한 단계를 나타낸다. [다양한 평가법 및 평가자에 걸친 표본 추출]과 [진급 위원회 도입]은 장기 참여의 편익을 보존할 때 교사들이 학습에 이익을 주는 평가를 사용할 수 있도록 지원하는 프로그래밍 방식의 평가의 중요한 설계 특징으로 식별되었다. 

However, teachers' conceptualisations of low‐stake assessments are not focused solely on learning. The use of assessment to monitor teaching effectiveness may create tension in teachers' assessment practices and the teacher‐learner assessment relationship. Understanding the position of teachers' assessments conceptualisations represents a step towards influencing and perhaps changing those conceptualisations to align with assessment for learning practices. Sampling across different assessments and assessors and the introduction of progress committees were identified as important design features of programmatic assessment that support teachers in using assessment to benefit learning, when preserving the benefits of prolonged engagement. 

 


 

 

 

Med Educ. 2020 Jun;54(6):528-537.

 

 doi: 10.1111/medu.14075. Epub 2020 Apr 6.

 

Between trust and control: Teachers' assessment conceptualisations within programmatic assessment

Affiliations collapse

Affiliations

1Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands.

2Department of Pathology, Cardiovascular Research Institute Maastricht, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.

3Education Institute, Cleveland Clinic, Lerner College of Medicine, Case Western Reserve University, Cleveland, Ohio, USA.

4Department of Education, Utrecht University, Utrecht, the Netherlands.

PMID: 31998987

PMCID: PMC7318263

DOI: 10.1111/medu.14075

Free PMC article

 

Abstract

Objectives: Programmatic assessment attempts to facilitate learning through individual assessments designed to be of low-stakes and used only for high-stake decisions when aggregated. In practice, low-stake assessments have yet to reach their potential as catalysts for learning. We explored how teachers conceptualise assessments within programmatic assessment and how they engage with learners in assessment relationships.

Methods: We used a constructivist grounded theory approach to explore teachers' assessment conceptualisations and assessment relationships in the context of programmatic assessment. We conducted 23 semi-structured interviews at two different graduate-entry medical training programmes following a purposeful sampling approach. Data collection and analysis were conducted iteratively until we reached theoretical sufficiency. We identified themes using a process of constant comparison.

Results: Results showed that teachers conceptualise low-stake assessments in three different ways: to stimulate and facilitate learning; to prepare learners for the next step, and to use as feedback to gauge the teacher's own effectiveness. Teachers intended to engage in and preserve safe, yet professional and productive working relationships with learners to enable assessment for learning when securing high-quality performance and achievement of standards. When teachers' assessment conceptualisations were more focused on accounting conceptions, this risked creating tension in the teacher-learner assessment relationship. Teachers struggled between taking control and allowing learners' independence.

Conclusions: Teachers believe programmatic assessment can have a positive impact on both teaching and student learning. However, teachers' conceptualisations of low-stake assessments are not focused solely on learning and also involve stakes for teachers. Sampling across different assessments and the introduction of progress committees were identified as important design features to support teachers and preserve the benefits of prolonged engagement in assessment relationships. These insights contribute to the design of effective implementations of programmatic assessment within the medical education context.

프로그램적 평가를 위한 오타와 2020 합의문 - 2. 도입과 실천(Med Teach, 2021)
Ottawa 2020 consensus statements for programmatic assessment - 2. Implementation and practice
Dario Torrea , Neil E. Riceb , Anna Ryanc, Harold Bokd, Luke J. Dawsone, Beth Biererf , Tim J. Wilkinsong , Glendon R. Taith, Tom Laughlini, Kiran Veerapenj, Sylvia Heenemank, Adrian Freemanb and Cees van der Vleutenk

 

 

도입
Introduction

2020년 오타와 회의에서 프로그램 평가의 12가지 이론적 원칙에 대한 합의가 이루어졌다(Heeneman et al. 2021). 합의 그룹은 이행의 과제를 인식하고(Norcini 2007 및 Burch 2007; Norcini 외 2018) 프로그램 평가와 그 원칙이 교육적 이점을 발휘하기 위해서는, 이러한 원칙이 다양한 맥락과 규제 상황에 걸쳐 어떻게 구현되는지에 대한 공통의 이해를 공유하는 것이 중요하다는 것을 확인했다. 따라서 Ottawa 2020 합의문에 따라, 가능자와 장벽을 식별하고 다른 것보다 더 쉽게 구현된 측면에 대한 통찰력을 얻기 위해 프로그램 평가의 구현에 대한 설명을 수집하기로 합의했다.
At the 2020 Ottawa conference, consensus was reached on twelve theoretical principles of programmatic assessment (Heeneman et al. 2021). The consensus group, recognising the challenges of implementation (Norcini and Burch 2007; Norcini et al. 2018), identified that, in order for programmatic assessment and its principles to exert their educational benefits, it is important to share a common understanding of how these principles are implemented across different contexts and regulatory settings. As a follow up to the Ottawa 2020 consensus statement, it was therefore agreed to collect descriptions of implementations of programmatic assessment in order to identify enablers and barriers and to gain insight into those aspects that have been more readily implemented than others.

[프로그램적 평가]는 [학습자에게 피드백을 제공하고, 신뢰할 수 있는 평가 결정에 정보를 제공하기 위해, 혼합된 평가 방법을 사용하여, 평가의 학습적 기능을 육성하고 활용하는, 종단적이고 발달적인 접근법]이다(Schuwirth 및 Van Der Vleuten 2011; Van Der Bleuten et al. 2012). 프로그래밍 방식의 평가 시스템이 진정한 교육 진보와 성과를 파악하는 데 더 효과적이고 유효할 수 있다는 의견이 제시되었다(Cook et al. 2015). 프로그래밍 평가의 타당성은 이전에 케인의 타당성 이론의 중요한 구조를 프로그래밍 평가의 구성 요소와 교리에 매핑함으로써 평가되었다. 또한 프로그램적 평가의 교육적 유익성과 이론적 tenets에 대한 증거가 증가하고 있다. 

Programmatic assessment is a longitudinal, developmental approach that fosters and harnesses the learning function of assessment, using a mix of assessment methods for the purpose of providing feedback to learners and informing credible assessment decisions (Schuwirth and Van der Vleuten 2011; Van Der Vleuten et al. 2012). It has been suggested that a programmatic assessment system may be more effective and valid for discerning true educational progress and performance (Cook et al. 2015). The validity of programmatic assessment has previously been appraised by mapping the overarching structure of Kane’s validity theory to the components and tenets of programmatic assessment (Schuwirth and van der Vleuten 2012). Furthermore, there is an increasing body of evidence about the educational benefits and theoretical tenets of programmatic assessment (Van Der Vleuten and Schuwirth 2005; Bierer et al. 2015; Heeneman et al. 2015; Schut et al. 2021).

보건 전문직 교육 프로그램은 궁극적으로 구현에 영향을 미치는 여러 상호작용 요소를 포함하는 복잡하고 역동적인 다층적 시스템을 포함한다. 다양한 교육 환경에서 프로그램 평가가 어떻게 구현되고 통합되었는지 배우는 것은, 구현implementation 프로세스에 영향을 미칠 수 있는 잠재적 enabler와 barrier를 식별하면서, 명시된 원칙이 교육 관행으로 어떻게 변환되었는지에 대한 통찰력을 얻는 데 필수적이다. 이러한 통찰력은 현재 프로그램 평가를 사용하는 교육자 및 기관 및 이를 구현할 계획 중인 교육자에게 유용할 수 있습니다. 
Health Professions Education programmes involve complex, dynamic, multilevel systems incorporating a number of interacting factors that ultimately affect implementation. Learning how programmatic assessment has been implemented and incorporated in different educational contexts is essential to gain insight on how the stated principles have been translated into educational practices, whilst identifying potential enablers and barriers that may impact implementation processes. These insights can be valuable for educators and institutions that currently use programmatic assessment and for those who are planning to implement it.

본 논문에서 우리는 프로그램 평가의 구현에 대한 설명과 서로 다른 설명이 합의문에 확립된 원칙과 어떻게 일치하고 이를 준수하는지에 대해 보고한다. 이 논문의 목적은 두 가지이다:

  • 첫째, 1단계에서 식별된 12가지 원칙 각각과 관련된 구현 구성 요소를 설명하고, 다른 기관과 교육 환경에 걸쳐 구현 전략의 잠재적 가변성을 포착하는 것.
  • 둘째, 다음과 관련된 가능 요소와 장벽에 대한 통찰력을 얻는 것이다. 프로그램 평가의 시행

In this paper we report on descriptions of implementation of programmatic assessment and how different descriptions align with and adhere to the principles established in the consensus statement. The purpose of this paper is twofold:

  • first to provide descriptions of the implementation components associated with each of the 12 principles identified in phase 1, capturing the potential variability of implementation strategies across different institutions and educational settings;
  • second, to gain insight into enablers and barriers related to the implementation of programmatic assessment.

방법들
Methods

참가자 및 데이터 수집
Participants and data collection

프로그램 평가의 측면을 구현한 헬스케어 프로페셔널스 교육(Healthcare Professional Education)의 15개 프로그램 샘플은 저자들 중 두 명(CVD, AF)에 의해 확인되었다. 표본에는 3개 대륙에 걸쳐 6개국의 학부 및 대학원 프로그램이 포함되었다. 오타와 2020 컨퍼런스에 이어, 프로그램 평가의 12가지 원칙(Heeneman et al. 2021)과 추가 프로그램 1개에 대한 합의를 이룬 그룹의 참가자들은 프로그램 평가 구현에 대한 16개 항목의 질문지를 작성하도록 초청되었다.
A sample of 15 programmes from Healthcare Professions Education that had implemented aspects of programmatic assessment was identified by two of the authors (CVD, AF). The sample included undergraduate and postgraduate programmes from six different countries across three continents. Following the Ottawa 2020 conference, the participants in the group who achieved consensus on the 12 principles of programmatic assessment (Heeneman et al. 2021), plus one additional programme, were invited to complete a 16-item questionnaire about implementation of programmatic assessment.

데이터 분석
Data analysis

설문 응답은 연역적 주제 분석을 사용하여 분석되었다(Boyatzis 1998; Braun and Clarke 2006). 프로그래밍 평가의 12가지 원칙이 유사한 이론적 토대를 공유하고(Heeneman et al. 2015; Torre et al. 2020) 높은 수준의 상호 연관성을 가진다고 가정할 때, 프로그래밍 평가 원칙은 주제 분석을 위한 프레임워크(또는 민감화 개념)로 사용되었다(Brooks et al. 2015). 반복적인 협업 주제 분석 프로세스를 사용하여, 저자 중 두 명(DT, NR)이 새로운 테마를 찾기 위해 데이터를 읽고, 이들을 만나 개발된 테마를 논의한 다음, 데이터에 대한 공통 이해를 구축하고 테마 내부 및 테마 간의 관계를 식별하기 위해 이들을 더욱 개선했다. 궁극적으로 데이터는 세 개의 전체적으로 의미 있는 클러스터로 구성되었다(그림 1).
Survey responses were analysed using a deductive thematic analysis (Boyatzis 1998; Braun and Clarke 2006). Given that the twelve principles of programmatic assessment share similar theoretical underpinnings (Heeneman et al. 2015; Torre et al. 2020) and have a high degree of interrelatedness, the programmatic assessment principles were used as a framework (or sensitizing concepts) for the thematic analysis (Brooks et al. 2015). Using an iterative collaborative thematic analysis process, two of the authors (DT, NR) read through the data looking for emergent new themes, met to discuss the themes developed, and then further refined them to build a common understanding of the data and identify relationships within and across themes. Ultimately, data were organised into three overall meaningful clusters (Figure 1).

 

결과
Results

Implementation data는 15개 프로그램(학부 의학 교육 8개, 졸업후 의학 교육 3개, 학부 치과 교육 1개, 학부 수의학 프로그램 2개)에서 수집되었다(표 1). 합의문 조사에 참여한 프로그램 중 하나를 제외한 모든 프로그램도 이행 조사에 참여했다.
Implementation data were collected from 15 programmes (eight undergraduate (primary degree) medical education, three postgraduate (residency or vocational) medical education, one undergraduate dentistry and two undergraduate veterinary programmes) (Table 1). All but one of the programmes involved in the consensus statement survey, also took part in the implementation survey.

우리는 연구 결과를 두 부분으로 나누어 발표한다. 

  • 첫째, 우리는 프로그램 전반에 걸쳐 공통적인(응답자 중 50% 이상이 언급한) 구현 구성요소에 대해 보고하는 여러 기관에 걸친 프로그램 평가 원칙의 이행을 설명하고 원칙이 교육 관행으로 어떻게 번역되었는지에 대한 예를 제공한다(1부). 
  • 둘째, 우리는 활성화 요소, 장벽, 학습된 교훈 및 프로그램 평가 구현의 의도하지 않은 결과에 대한 연구 결과를 제시한다(2부).

We present our findings in two parts.

  • Firstly, we describe the implementation of programmatic assessment principles across different institutions reporting on implementation components that were common across programmes (mentioned by more than 50% of respondents) and provide examples of how the principles were translated into educational practices (Part 1).
  • Secondly, we present findings on enablers, barriers, lessons learned, and unintended consequences of the implementation of programmatic assessment (Part 2).
 

1부 – 프로그램 평가 원칙의 이행
Part 1 – implementation of programmatic assessment principles

프로그램 평가의 12가지 원칙의 실행은 세 가지 주제로 그룹화되었다.

  • (1) 성장과 발전을 위한 학습자와의 대화를 촉진하기 위한 지속적이고 의미 있는 피드백
  • (2) 이해 관계의 연속체라는 맥락 내에서 혼합된 평가 방법
  • (3) 비례성 및 삼각측량 원칙을 포함한 공정하고 신뢰할 수 있는 의사결정 프로세스 수립.

The implementation of the 12 principles of programmatic assessment were grouped under three themes:

  • (1) Continuous and meaningful feedback to promote a dialogue with the learner for the purpose of growth and development;
  • (2) Mixed methods of assessment across and within the context of a continuum of stakes; and
  • (3) Establishing equitable and credible decision-making processes including principles of proportionality and triangulation.

 

주제 1: 성장과 발전을 위한 학습자와의 대화를 촉진하기 위한 지속적이고 의미 있는 피드백:
Theme 1:
 Continuous and meaningful feedback to promote a dialogue with the learner for the purpose of growth and development:

이 주제 아래 원칙 1, 2, 10, 11 및 12에 맞춰 9개의 실행 구성요소(표 2)가 있었다.
There were nine implementation components (Table 2) aligned with principles 1, 2, 10, 11 and 12 under this theme.

 

대부분의 프로그램은 (실시간으로 진행되든, 일정 간격으로 진행되든) 모든 평가가 피드백에 최적화된 단일 데이터 포인트에 기여하는 구현을 보고하였다. 여러 평가에서 집계된 데이터를 사용한 서술적 피드백 전달이 자주 언급되었다. 피드백은 성찰과 향후 학습을 지원하기 위해 구두 또는 서면 형태로 학습자에게 전달되었습니다. 대다수의 프로그램은 피드백 품질을 높이고 의미 있는 성찰과 목표 설정 과정을 육성하기 위해서는 [슈퍼바이저와 학습자 간의 관계 개발]이 중요하다고 강조했다.
Most programmes reported an implementation in which every assessment contributed a single data-point optimised for feedback, whether that was occurring in real time or at specific intervals. The delivery of narrative feedback using aggregated data from multiple assessments was often mentioned. Feedback was delivered to learners in verbal and/or written form, with the intent of providing support for reflection and to guide future learning. The majority of programmes highlighted the importance of developing a relationship between supervisor and learner to enhance feedback quality and foster a process of meaningful reflection and goal setting.

 

모든 프로그램은 학습자가 자신의 진도와 성취도를 지원하기 위해 [코치나 지도교수를 배정받는 시스템]의 시행을 보고했습니다. 대부분의 프로그램은 코치가 학습자들과 [분기별 또는 2년에 한 번꼴로 정기적으로 미팅]을 갖는 것으로 나타났지만, 어떤 경우에는 학습 성적 부진이나 우려에 대응하여 임시적으로 회의를 하기도 했습니다. 대부분의 프로그램은 교수-학습자 거래를 용이하게 하기 위해 평가 데이터를 수집, 저장 및 쉽게 액세스하기 위해 특정 유형의 [전자 포트폴리오]를 사용했다. [중간 검토]는 진행 상황 평가, 학습자의 종방향 학습 궤적에 대한 성찰 촉진, 학습 계획 수립 및/또는 필요한 경우 추가 교정 조치를 목적으로 수행되었다.
All programmes reported the implementation of a system in which learners were assigned a coach or advisor to support their progress and achievement. The majority of programmes indicated that coaches had recurrent meetings with learners (quarterly or biannually); however, in some instances, meetings were more ad hoc in response to poor academic performance or concerns being flagged. Most programmes used some type of electronic portfolio to gather, store, and readily access assessment data to facilitate faculty-learner transactions. Intermediate reviews were performed for the purpose of assessing progression, promoting learners’ reflection about their longitudinal learning trajectory, formulating learning plans and and/or additional remediation if needed.

대부분의 프로그램은 프로그램에 들어온 순간부터 [평가 과정에 대한 학습자의 engagement와 participation]을 보고했습니다. 어떤 경우에는 프로그램은 학습자가 자기 성찰에 중점을 두고 피드백에 반응하고 개별 학습 계획을 개발하도록 요구했습니다. 일부 프로그램에서는 개인별 학습 우선순위에 맞춰 가르치는 한편 학습자가 자기 계발을 위해 주도하도록 장려하기도 했다. 그러나 일반적으로 이 원칙은 많은 학습자를 위한 개별 학습의 병참적, 조직적 어려움으로 인해 부분적으로만 시행되었다.

Most programmes reported learners’ engagement and participation in the assessment process upon entering the program. In some cases, programmes required learners to respond to feedback and develop individual learning plans, with an emphasis on self-reflection. In some programmes, teaching was tailored to meet individual learning priorities whilst encouraging learners to take agency for their own development. Generally, however, this principle was only partially implemented due to the logistical and organisational challenges of individualising learning for a high number of learners.

주제 2: 연속적인 이해 관계의 맥락에서 혼합된 평가 방법:
Theme 2:
 Mixed methods of assessment across and within the context of a continuum of stakes:

이 주제 아래 원칙 4, 5, 6과 일치하는 네 가지 공통 구현 구성 요소(표 3)가 있었다.
There were four common implementation components (Table 3) aligned with principles 4, 5 and 6 under this theme.

 

 

모든 프로그램은 단일 유형의 평가가 모든 역량을 포착할 수 없으며, 구현에는 여러 평가 방법과 도구의 사용이 수반된다고 지적했다.
All programmes indicated that no single type of assessment can capture all competencies and that implementations involved the use of multiple assessment methods and tools.

구현된 다양한 평가는 [학습자에게 풍부하고 의미 있는 피드백을 제공하는 데 사용될 수 있는 수치 및 서술 데이터를 수집]할 수 있도록 했다. 거의 모든 프로그램에서 평가의 혼합이 역량 프레임워크에 맞추어 설계designed against되었다고 언급했으며, 많은 프로그램에서는 Miller의 피라미드를 사용하여 설계된 평가 프로그램과 건설적인 정렬을 고수하고 있음을 나타냈다. 대부분의 프로그램은 [다수의 저부담 사업장 기반 평가]가 실제 상황 역량 평가에 특히 중요한 것으로 나타났으며, 대부분의 프로그램은 지식 영역에서 시뮬레이션 평가(예: OSCE)와 서면 평가(진도 테스트 포함)의 사용을 보고했다.
The variety of assessments implemented allowed for the gathering of both numerical and narrative data that could be used to provide rich and meaningful feedback to learners. Nearly all programmes mentioned that the mix of assessments was designed against a competency framework, and many indicated adherence to constructive alignment and a programme of assessments designed using Miller’s pyramid. Most programmes indicated multiple low-stakes workplace-based assessments as particularly important for assessing real-world situational competence, and most reported the use of simulated assessments (e.g. OSCEs) and written assessments (including progress testing) in the knowledge domain.

대부분의 프로그램들은 아래의 두 가지를 조합하여 [연속적인 이해 관계의 구현]을 보고하였다.

  • 피드백의 빈번한 전달이 수반되는 다수의 저부담 평가의 사용
    (예: 직접 관찰 작업장 기반 평가 또는 순차적 미니 OSCE)
  • 커리큘럼의 주요 발달적 이행 시점에서 수행되는 고부담 평가와의 연계
    (예: 임상 순환, 최종 필기 시험 및 OSCE 또는 국가 면허 시험에 들어가기 전 진행 시험).

Most programmes reported the implementation of a continuum of stakes by

  • the use of multiple low- stakes assessments with frequent delivery of feedback
    (e.g. direct observation workplace-based assessments or sequential mini-OSCEs)
  • interwoven with high-stakes assessments performed at key developmental transition points in the curriculum
    (e.g. progression exams before entering clinical rotations, final written exams and OSCEs or national licensing exams).

이 원칙은 저부담 평가와 고부담 평가의 타이밍 및 점진적 조합과 관련하여 광범위한 형태의 시행 방식을 보였다. 더욱이 [학생들에게 평가의 이해stakes 관계에 대한 정보를 제공하고, 그러한 이해 관계의 연속체가 어떻게 운영될 것인지를 설명하는 것]은 대부분의 프로그램에서 빈번한 실행 전략이었다.

This principle had a wide range of implementations, related to timing and progressive combination of low- and high-stakes assessment. Furthermore, providing students with information about the stakes of assessment and explaining how such a continuum of stakes was going to be operationalised was a frequent implementation strategy in the majority of programmes.

많은 프로그램은 [이해관계자들이 평가를 통과/실패가 아닌 [일련의 부담stakes]에 있다고 생각하도록 권장하기 위한 정보와 지침을 제공하는 것]의 중요성을 강조하였다. 고부담 평가에 앞서 [피드백이 수반되는 다수의 저부담 평가를 구현하는 것]은 프로그램이 총괄평가 접근법이 지배하는 문화에서, stakes의 연속체 속에서 이뤄지는 ['학습을 위한 평가'라는 언어와 문화]로 전환하기 시작할 수 있도록 했다.

Many programmes highlighted the importance of providing information and guidance to encourage stakeholders to think of assessments as being on a continuum of stakes rather than pass/fail. The implementation of multiple low-stakes assessments with feedback prior to high-stakes assessments allowed programmes to begin shifting from a predominant summative assessment approach to a language and culture of assessment for learning through a continuum of stakes.

주제 3: 비례성 및 삼각측량 원칙을 포함한 공정하고 신뢰할 수 있는 의사결정 프로세스 수립:
Theme 3:
 Establishing equitable and credible decision-making processes including principles of proportionality and triangulation:

이 주제 아래 원칙 3, 7, 8 및 9와 일치하는 10개의 공통 구현 구성 요소(표 4)가 있었다.
There were ten common implementation components (Table 4) aligned with principles 3, 7, 8 and 9 under this theme.


대부분의 프로그램의 경우, 시간이 지남에 따라 수집된 여러 평가 데이터 포인트의 검토 및 집계를 기반으로 위원회가 고부담 의사결정(예: 다음 연수로의 진행 결정)을 내렸다. 고부담 결정의 시기는 프로그램에 따라 다양하며, 일부는 연 2회 또는 분기별로 발생하기도 한다. 저부담 의사 결정(예: 임상 기술에 대한 직접 관찰의 수행에 대한 결정)은 학습자의 성장과 개발을 촉진하기 위한 피드백을 제공하기 위해 시행되며, 하나 또는 소수의 평가 데이터 포인트를 기반으로 했다. 그러나 대다수의 프로그램은 [비례성 원칙]에 따라 저위험 평가가 고위험 의사결정에 기여한 데이터 포인트 중 하나가 될 것이라고 지적하였다.

For most programmes, high-stakes decisions (e.g. decisions to progress to the next year of training) were made by a committee based on the review and aggregation of multiple assessment data points collected over time. The timing of high-stakes decisions varied by programmme, with some occurring yearly and others biannually or quarterly. Low-stakes decisions (e.g. a decision on a performance of a direct observation of clinical skills) were based on a single or few assessment data points for the purpose of providing feedback to promote learners’ growth and development. However, the majority of programmes indicated that when implementing the principle of proportionality, low-stakes assessments would be one of the data points that contributed to a high-stakes decision.

대부분의 프로그램은 [고부담 의사 결정을 구현하기 위하여 어떤 형태든 위원회를 포함한다]고 보고했으며, 종종 2개 이상의 단계로 진행되는 위원회 의사 결정 프로세스를 기술하기도 했다

  • 진행 위원회는 모든 평가 데이터를 검토한 후 학습자의 성과에 대한 첫 번째 결정을 내립니다. 
    그리고 나서 시험 위원회는 최종 결정에 도달합니다.

Most programmes reported that implementation of high-stakes decisions involved some form of a committee and described some version of a two (or more) stage committee decision-making process

  • (e.g. a progress committee makes a first determination about a learner’s performance after reviewing all assessment data,
    and then an examiner committee reaches a final decision).

기술된 위원회는 일반적으로 [학습자의 평가 데이터를 검토한 후, 최종 결정에 도달하기 위해, 데이터 중심 심의에 참여하는 독립적인 훈련된 시험관trained examiner 그룹]으로 구성되었다. 대부분의 프로그램은 의사결정을 지도하고 투명성과 신뢰성을 보장하기 위해서는, [학습자가 공유된 의사결정 과정에 직접 engagement and participation]하기 위해 [잘 전달되고 사전 결정된 절차, 규칙 또는 루브릭이 필요함]을 강조하였다.

The typically described committee consisted of a group of independent, trained examiners who review learners’ assessment data, often collected in an e-portfolio, and then engage in a data-driven deliberation to reach a final decision. Most programmes highlighted the need for well communicated, pre-determined procedures, rules or rubrics to guide decision-making and to ensure transparency and credibility, often with direct learners’ engagement and participation in a shared decision-making process.

삼각측량은 대부분의 프로그램에서 고부담 의사결정 과정에서 중요한 것으로 보고되었으며, 일반적으로 이전에 가장 중요한 역량 기반 프레임워크에 매핑된 여러 평가 양식의 데이터를 종합하여 구현되었다.

Triangulation was reported by most programmes as important in the high-stakes decision-making process and was generally implemented by synthesizing data from multiple assessment modalities that had been previously mapped to an overarching competency-based framework.

모든 프로그램이 모든 학습자의 종적 성과에 대한 모니터링을 포함하는 의사결정 과정을 설명했지만, 대다수는 대부분의 의사결정이 명확하고 많은 논의를 필요로 하지 않으며, 그 결과가 교수진이나 학습자에게 '깜짝surprises'으로 다가오지 않는다고 보고했다. 대다수의 프로그램은 심층적인 위원회 논의가 성과 기준 충족에 대한 우려가 있는 상대적으로 적은 수의 학습자에게 초점이 맞춰진다고 보고했다.
Whilst all programmes described decision-making processes that included the monitoring of longitudinal performance of all learners, the majority reported that most decisions were clear-cut and did not require much, if any, discussion, with outcomes not coming as ‘surprises’ for faculty or learners. The majority of programmes reported that in depth committee discussions usually focused on a relatively small number of learners for whom there were concerns over meeting performance standards.

 

2부 - 학습자, 장벽 및 교훈
Part 2 -enablers, barriers, and lessons learned

프로그램 평가 구현의 가장 강력한 원동력은 [헌신적인 교수진이 뒷받침하는 명확한 비전을 가진 강력한 리더십]이라는 데 의견이 일치했다. 대다수의 프로그램들은 [명확하게 소통하고 접근하기 쉬운 목표와 이행 계획]이 필수적인 원동력이라고 언급하였다. 몇몇 프로그램에서는 설계와 구현 계획의 개발에 투자하는 것이 구현의 성공에 필수적이라고 언급하였다.

There was agreement that the strongest enabler for programmatic assessment implementation is strong leadership with a clear vision supported by committed faculty. The majority of programmes mentioned that having clearly communicated, accessible goals and delivery plans was an essential enabler. Several programmes mentioned that investing in the development of a design and implementation plan was fundamental to the success of the implementation.

['중앙 집중식 감독'을 '프로그램 평가의 철학을 홍보하고 모든 이해당사자를 참여시키고 소통하는 평가 워킹 그룹의 창설'과 결합하는 것]이 구현 과정의 핵심 가능자였다.

  • 평가시스템에 대한 명확한 비전
  • 평가과정 학습자 참여
  • 평가목표 수립
  • 방어 가능한 절차 및 절차 이행

...등이 모두 성공적인 시행을 위해 필요한 단계로 언급됐다.
A centralised oversight coupled with the creation of an assessment working group who would promote the philosophy of programmatic assessment and engage and communicate with all stakeholders were key enablers in the implementation process.

  • Having a clear vision of the assessment system,
  • involving learners in the assessment process,
  • establishing assessment goals, and
  • implementing defensible processes and procedures

...were all mentioned as necessary steps to enable successful implementation.

또 다른 공통 요소(및 장벽)는 구현 프로세스의 설계, 개발 및 제공에 대한 모든 이해 관계자의 참여 수준입니다. 성공의 기본은 

  • 교수진과 학습자를 대상으로 프로그램 평가의 운영 및 원칙 교육을 위한 지속적인 자원 투입
  • 피드백 전달, 학습자의 행위자성 및 의사결정을 위한 삼각측량 절차를 지원하기 위한 소프트웨어(e-Portfolios)에 대한 투자였다. 

Another common enabler (and barrier) was the level of buy-in and engagement of all stakeholders in the design, development and delivery of the implementation process. Fundamental to the success was

  • an ongoing commitment of resources to train faculty and learners on the principles, operationalisation of programmatic assessment,
  • coupled in the longer term, with a commitment to invest in software (e-Portfolios) to support feedback delivery, learners’ agency, and triangulation procedures for decision-making.

구현의 일환으로 [지속적인 교수진 개발 프로그램]을 만든 것이 중요한 원동력이었다. 교수개발 프로그램은 평가 문해력에 초점을 두었고, 이는 [사용되고 있는 역량 프레임워크에 대한 적절한 수준의 지식] 및 [학습을 위한 피드백을 제공하는 것] 등을 의미한다. 그러한 노력에는 자원과 리더십 지원이 분명히 포함되어 있었다. 학습자의 진도와 성취도를 평가하고 지원하기 위한 강력한 코칭 시스템 개발에 자원을 투자하는 것도 언급되었다.

The creation of an ongoing faculty development programme as part of the implementation, focusing on assessment literacy, a good knowledge of the competency framework in use and providing feedback for learning, was a critical enabler. Such effort clearly involved the leveraging of resources and leadership support. Investing resource into developing a strong coaching system to evaluate and support learners’ progress and achievement was also mentioned.

프로그램이 [새로운 프로그램]이나 [전체 커리큘럼 개편]과 연계하여 프로그램 평가를 구연하는 것이, 이미 자리잡은 시스템 내에서 통합을 시도하는 프로그램보다 분명히 더 원활한 프로세스였다. 세부 커리큘럼 매핑과 함께 [세심한 건설적 정렬은 신규 시행new implementation이 더 쉽다는 점]이 지적됐다.

Where programmes had implemented programmatic assessment in new programmes or in conjunction with a full curriculum review, it was evidently a smoother process than in programmes which were attempting to integrate within established systems. Careful constructive alignment with detailed curriculum mapping was noted as being easier in new implementations.

일반적으로 언급되는 구현의 장애요인barriers은 실행 가능요인enabler을 상당 부분 미러링했다. 변화에 대한 조직의 의지 수준, 교수 시간의 요구, 자원의 가용성은 모든 응답자들에 의해 장벽으로 언급되었지만 반드시 극복할 수는 없었다. 성공적인 구현을 위한 가장 큰 장벽은 [변화에 대한 일반적인 저항]이었으며, 대부분의 프로그램은 교수진, 교육자 및 학습자의 [내재된 교육 및 평가 문화, 기대 및 태도를 변화시키는 데 어려움]을 언급하고 있었다. 교수진의 전문적인 성장을 위한 계획 및 자원 제공의 부족과 마찬가지로 [학습자들의 평가 사고방식과 문화의 변화]가 중요한 장벽으로 확인되었다. 시스템 수준의 변화를 위해 헌신하는 [강력한 리더십의 부재]는 많은 기관들에 의해 구현에 중대한 장애물로 인식되었다.

The commonly mentioned barriers to implementation to a large extent mirrored the enablers. The level of organisational commitment to change, demands on faculty time, and availability of resources were cited by all responders as barriers, but not necessarily insurmountable ones. The biggest barrier to successful implementation was a general resistance to change, with most programmes mentioning the difficulty in changing embedded educational and assessment cultures, expectations and attitudes – of faculty, educators and learners. A shift in the mindset and culture of assessment among learners was identified as a significant a barrier, as was a lack of planning and provision of resources for faculty professional growth. The lack of strong leadership committed to making changes at the system level was recognised as a significant obstacle to implementation by many institutions.

기관 정책과 인가 및 규제 기관의 요구사항이 잠재적 장벽으로 보고되었다. 예를 들어, 교육 중 어느 시점에 높은 점수를 받는 국가 면허 시험에 합격해야 한다는 요구 사항은 이론적 원리에 반하는 것이며, 프로그래밍 방식의 평가에 대한 학습자의 참여 가능성과 참여를 방해하는 요인으로 간주되었다. 그러나 대부분의 프로그램은 대학 정책 및 국가 인증 기관이 정한 경계와 규정 내에서 변화를 이루거나, 프로그램 평가를 구현하는 것이 가능했다.
Institutional policies and requirements from accreditation and regulatory bodies were reported as potential barriers. For example, the requirement on learners to pass a high-stakes national licensing exam at some point in their training was seen as counter-intuitive to the theoretical principles and as a hindering factor to the acceptability of and learners’ buy-in to programmatic assessment. However, most programmes were able to make changes and implement programmatic assessment within the boundaries and regulations set by university policies and national accreditation bodies.

프로그램 평가의 시행은 학습자, 교수진, 그리고 그들의 교육 시스템과 관련된 많은 교훈을 배울 수 있는 기회를 프로그램에 제공한다. 프로그램은 학습자를 프로그램 평가 혁신에 참여시키는 것이 교수진의 참여만큼이나 중요하다는 것을 배웠습니다. 대부분의 프로그램은 프로그램 평가 구현이 평가의 학습 기능을 활용하는 데 도움이 되고, [어려움을 겪고 있는 학습자를 조기에 식별할 수 있는 기회]를 더 많이 제공하므로 개선은 물론, [표적화된 강력한 개입]에 더 많은 시간을 할애할 수 있다고 설명했다. 또한 [학습자는 능동적으로 피드백을 구하고 자신의 학습에 대한 소유권을 가질 가능성]이 높은 반면, 교수진은 학습자의 진도와 성과에 대한 평가, 토론 및 의사결정을 보다 쉽게 할 수 있습니다.
The implementation of programmatic assessment afforded programmes the opportunity to learn a number of lessons related to learners, faculty, and their educational system. Programmes learnt that involving learners in programmatic assessment innovation is just as important as buy-in from faculty members. Most programmes described that implementing programmatic assessment helped leverage the learning function of assessment and provided more opportunity to identify struggling learners early on, thereby allowing more time for improvement and for targeted and robust interventions. Furthermore, learners were more likely to seek feedback proactively and take ownership of their own learning while faculty were more comfortable with assessing, discussing, and making decisions about learners’ progress and performance.

많은 프로그램들은 공유된 비전을 유지하기 위해 이해관계자들과 정기적으로 참여하는 것의 중요성을 배웠고, 왜, 무엇을, 어떻게 변화가 일어날 것인지를 자주 전달했다고 설명하였다. 대부분의 응답자들은 프로그램 평가의 교육적 이득을 구현하고 인식하기 위해서는 끈기, 강력한 리더십, 그리고 제도적 헌신이 필요하다고 보고했다. 또한 몇몇 의견제출자들은 변화의 과정을 실행시키기enact 위해서는 기관의 맥락적 요인과 문화적 지형을 이해하는 것이 필수적이라는 것을 인식하였다. 한 특정 맥락에서 발생하는 변화가 다른 상황에서는 실현 가능하지 않거나, 성공적이지 않을 수도 있다. 많은 프로그램들은 [프로그램 평가가 전통적인 평가를 근본적으로 파괴시키는 것]이며, [주요한 패러다임의 변화를 요구한다]고 지적하였다.
Many programmes described having learnt the importance of engaging regularly with stakeholders to maintain a shared vision, frequently communicating the why, what, and how change is going to occur. Most respondents reported that it took perseverance, strong leadership, and institutional commitment to implement and recognise the educational gains of programmatic assessment. Several respondents also recognised that understanding the contextual factors and the cultural landscape of the institution was vital to enact a process of change. Changes occurring in one particular context may not be feasible or as successful in another. Many programmes indicated that programmatic assessment is a fundamental disruption from traditional assessment and requires a major paradigm shift; therefore, creating a context supportive of change is imperative for success.

의견제출자들은 프로그램 평가의 시행이 의도하지 않은 몇 가지 결과를 나타내었다. 일부 프로그램의 경우, 프로그램 평가의 시행은 커리큘럼에 대한 새로운 통찰력을 제공하고 개선해야 할 영역을 식별할 수 있게 했다. 프로그래밍 방식의 평가로의 변화는 피드백 리터러시를 향상시켰고, 학생들이 교수들로부터 받은 피드백을 가장 잘 활용하는 방법을 이해하는 데 도움이 되었다.
Respondents indicated several unintended consequences of the implementation of programmatic assessment. For some programmes, implementing programmatic assessment provided a new insight into the curriculum and allowed identification of areas for improvement. The change to programmatic assessment enhanced feedback literacy and helped students understand how to best utilise the feedback they received from faculty.

한 프로그램은 ['프로그램적 평가'와 '학습을 위한 평가라는 원칙']에 따라 복수의 데이터 포인트가 있고 결정 지점이 거의 없는 것이 아니라, 어떤 이유에서인지 [의사결정 지점의 수가 증가]하여 [학생들이 지속적인 총괄평가 환경의 일부가 된다는 인식]을 갖게 되었다고 보고했다.
One programme reported that instead of having multiple data points and few decision points in accordance with programmatic assessment and assessment for learning principles, for some reason, there was an increase in the number of decision points, resulting in students’ perception of being part of an environment of constant summative assessment.

일부 프로그램은 특히 프로그램 평가 시행 초기에 교수 시간과 업무량이 증가했다고 보고했지만, 교수진(코치)과 학습자 사이의 더 나은 의사소통과 대화 측면에서 장기적인 이익이 시간 자원의 초기 투자보다 더 크다고 언급했다.
Some programmes reported an increase in faculty time and workload, particularly at the inception of programmatic assessment implementation, but noted that the longer-term benefits in terms of the better communication and dialogue between faculty (coaches) and learners outweighed the initial investment of time resource.

몇몇 프로그램들은 프로그램 평가의 시행이 [테크놀로지 강화 평가technology enhanced assessment]의 예상치 못한 증가와 일치한다고 지적하였다. 경험을 수집하기 위하여 [e-포트폴리오와 휴대용 테크놀로지]를 추가하여, 학습자들이 자신의 작업을 공유하고 성찰을 촉진하고 교수진과 상호 작용할 수 있는 안전한 환경을 만들 수 있도록 하였다.

Several programmes indicated that their implementation of programmatic assessment coincided with an unexpected increase in the use of technology enhanced assessment; the use of an e-portfolio and the addition of portable technology to collect experiences allowed learners to share their work, promoting reflection and creating a safe environment to interact with faculty.

활성화 요소와 장벽에 대한 추가 세부 사항은 보충 부록 1에 보고되어 있다.

Additional details on enablers and barriers are reported in Supplementary Appendix 1.

고찰
Discussion

서로 다른 프로그램에 걸쳐 광범위한 구현 설명이 있었지만, 전반적인 구현 요소, 가능 요소 및 장벽은 학부와 대학원 프로그램에 걸쳐 유사했다. 12가지 프로그램 평가 원칙의 실제 실행은 대부분 원래의 선언enunciation과 논리에 충실했다. 예를 들어, 대부분의 프로그램에는 [고부담 의사결정을 위한 평가 위원회]라는 형식이 있었지만, 위원회의 명칭, 데이터 분석에 사용된 절차 또는 위원회의 회의 빈도는 프로그램 전반에 걸쳐 다양한 구현 범위를 가지고 있는 것으로 밝혀졌다. 

  • 고부담 결정을 위한 검토 위원회 사용,
  • 혼합된 평가 방법의 활용
  • 모든 평가를 피드백에 최적화된 데이터 포인트로서 구현,
  • 부담의 연속체 개발

...이런 것들은 다양한 프로그램과 교육적 맥락에 걸친 실행 범위 내에서 실행으로 전환된 원칙들 중 일부에 불과했습니다.

There were a wide range of implementation descriptions across different programmes, yet overall components of implementation, enablers and barriers were similar across disciplines and undergraduate and postgraduate programmes. The actual implementation of the 12 programmatic assessment principles remained, for the most part, faithful to the original enunciation and rationale. For example, most programmes had some form of assessment committee for high-stakes decisions; however, what the committee was named, what procedure was used to analyse data, or how often the committee met was found to have a range of implementations across programmes.

  • The use of review committees for high-stakes decisions,
  • the utilisation of mixed methods of assessments,
  • the implementation of every assessment as a data point optimised for feedback, and
  • the development of a continuum of stakes

...were just some of the principles translated into practice within a range of implementations across different programmes and educational contexts.

프로그램 평가에서 구현의 중요한 역할이 논의되었으며, 구현의 품질이 프로그램 평가의 성공을 정의한다고 제안되었다. 주요 구현 요소는 다음과 같습니다. 

  • 원칙과 참여에 기반한 설계
  • 평가를 통합하기 위한 포트폴리오의 역할 
  • 고부담 의사 결정에서 위원회의 역할 
  • 평가에 대한 학생들의 인식 
  • 학습자와 교수진 사이의 관계
  • 커리큘럼과 프로그램 평가의 병행 시행 

The critical role of implementation in programmatic assessment has been discussed (Bok et al. 2013), and it has been suggested that the quality of implementation defines the success of programmatic assessment (Van Der Vleuten et al. 2019). Key implementation elements include

  • design based on principles and participation (Jamieson et al. 2017; Schuwirth et al. 2017),
  • the role of a portfolio to integrate assessments (Dannefer and Henson 2007),
  • the role of a committee in high-stakes decision-making (Van Der Vleuten et al. 2015),
  • students’ perception of the assessment (Heeneman et al. 2015; Schut et al. 2018),
  • the relationship between learners and faculty (Schut et al. 2021), and the parallel implementation of curriculum and programmatic assessment (Freeman and Ricketts 2010; Ricketts and Bligh 2011).

보다 최근에 Jamieson 등(2021)은 성공적인 프로그램 평가의 구현은 [감독자의 역할과 평가 관행에 대한 관점을 변화]시키는 동시에, [감독자-학습자 관계를 개선한다]는 것을 발견했다. 프로그램 평가의 적절한 구현은 역량중심의학교육의 성과에 대한 데이터를 제공한다는 점에서도 중요하다

More recently, Jamieson et al. (2021) found that a successful implementation of programmatic assessment transformed the supervisors’ role and their views of assessment practices, whilst enhancing the supervisor-learner relationship . Adequate implementation of programmatic assessment is also critical to provide data to inform outcomes of competency based medical education (Hauer et al. 2018; Iobst and Holmboe 2020; Misra et al. 2021).

구현은 고립된 이벤트가 아니다. 대부분의 프로그램은 프로그램 평가의 시행 과정에 시간(몇 달이 아니라 몇 년)이 걸리고, 전략적으로 잘 설계되고, 예산이 잘 책정된 계획이 필요하며, 강력한 리더십과 지원이 필요하며, 변화에 대한 공동의 비전과 교육 기업 전체의 문화 이동이 요구된다고 보고했다. 또한 지속적인 진행 상황 모니터링과 당면 과제 해결 지원과 함께 지속적인 교수진 개발 및 코칭 프로그램이 필요하다. 프로그램 평가의 실행은 핵심 구성요소의 무결성을 유지하기 위한 자원의 지속적인 헌신과 지속적인 주의를 필요로 한다.
Implementation is a process not an isolated event (Hall and Hord 2015). Most programmes reported that the implementation process of programmatic assessment

  • takes time (years not months),
  • needs a strategic well-designed and well budgeted plan,
  • requires strong leadership and support, and
  • demands a shared vision of change and a culture shift across the entire educational enterprise.

Further, it

  • involves an ongoing programme of faculty development and coaching with continuous monitoring of progress and assistance to face and resolve challenges.

Implementation of programmatic assessment

  • requires sustained commitment of resources and ongoing vigilance to maintain the integrity of its key components.

계획 설계, 리더십 지원 확보, 유연성 및 조정 기회 허용, 이해관계자 간의 관련성과 가치에 대한 공통된 믿음은 모두 변화 관리 문헌에 보고된 중요한 요소들이다(Gale and Grant 1997; Schneider 2014). 프로그램 평가의 구현에 대한 설명은 이러한 요인들 중 몇 가지와 일치하지만, 맥락과 그 복잡성에 대한 적응은 프로그램 전반에 걸친 프로그램 평가 원칙의 성공적인 구현을 위한 필수 요소로 부상하는 것으로 보인다.
Designing a plan, securing leadership support, allowing opportunities for flexibility and adjustments, a shared belief of relevance and value among stakeholders are all important factors reported in the managing change literature (Gale and Grant 1997; Schneider 2014). The descriptions of implementations of programmatic assessment are aligned with several of these factors, yet adaptation to context and its complexities seems to emerge as an essential ingredient for a successful implementation of the principles of programmatic assessment across programmes.

이해 관계의 연속체로서의 평가(원칙 6)는 특히 그 구현 방식이 광범위했다. 많은 프로그램들이 시행되고 시행되어 어떻게 운영될지 등 이 원칙의 의미에 대해 설명하고 교육할 계획이며, 성장과 개선의 문화를 조성하여 성적과 석차가 없어지는 경우도 있었다. 이러한 접근 방식은 평가 과정 속에서 학습자의 행위자성를 육성할 수 있는 기회를 만들었습니다. 이는 학습자가 이해 관계의 연속성을 복잡한 것으로 인식하고 평가 과정을 통제하고 수행할 수 있다는 인식과 밀접한 관련이 있음을 시사하는 이전의 증거와 일치했다(Bok et al. 2013; Schut et al. 2018).
Assessment as a continuum of stakes (principle 6) had a particularly wide range of implementations. Many programmes implemented and executed plans to explain and educate learners about the meaning of this principle, including how it was going to be operationalised, promoting a culture of growth and improvement that, in some cases, led to the elimination of grades and class ranks. This approach created opportunities to foster learners' agency with the assessment process. This was aligned with previous evidence suggesting that a continuum of stakes is perceived by learners as complex and is strongly related to their perception of being able to control and take agency of the assessment process (Bok et al. 2013; Schut et al. 2018).

[학습자의 행위자성learner's agency]은 복잡한 과정이다. 여기에는 [기존의 사회적 규범과 문화적 신념의 압력]에 [대응하기 위한 노력 및 멘토십과 서포트]가 필요하다(Watling et al. 2021) [교사-학습자 관계]는 학습자의 평가 인식에 중요한 역할을 한다.

  • [평가 관계에서 덜 지배적인 접근 방식을 보이는 교사]는 학습자의 에이전시를 가능하게 하여 학습 평가에 대한 긍정적인 학습자 인식을 촉진한다(Schut et al. 2020a).
  • [교사가 저부담 평가 과정에 대한 통제를 행사]하면 평가의 학습 기능을 방해하고 교사-학습자 관계에 긴장을 발생시킬 수 있다(Schut et al. 2020b).

이러한 긴장은 중요한 평가 결정이 한 개인의 결정보다는 집단적인 책임을 지는 진보 위원회나 임상 역량 위원회를 사용함으로써 완화될 수 있다. 진급progress 위원회 또는 역량competency 위원회의 사용은 프로그램 평가의 구현에 대한 거의 모든 설명에서 핵심 요소였다.
Learners’ agency is a complicated process; it takes effort and requires mentorship and support to counteract the pressure of established social norms and cultural beliefs (Watling et al. 2021). Teacher-learner relationships play a critical role in learners’ assessment perceptions;

  • teachers who show a less dominant approach in the assessment relationship enable learners’ agency, promoting a positive learner perception of assessment for learning (Schut et al. 2020a).
  • If teachers exert control over the low-stakes assessment process it can hinder the learning function of assessment and generate tensions in the teacher-learner relationship (Schut et al. 2020b).

Such tensions can be relieved in the use of progress committees or clinical competency committees, where important assessment decisions have a collective responsibility rather than that of a single individual. The use of a progress or competency committee was a key component in almost all descriptions of the implementations of programmatic assessment.

프로그래밍 평가를 도입함으로써, 학습자는 [성과 목표 지향(긍정적인 판단을 얻고 자신의 능력을 인정받거나 부정적인 피드백을 피하는 데 초점을 맞춤)]이 아닌 [학습 목표 지향(성장과 개선에 초점을 맞춤)]을 둔 피드백을 탐색 행동을 촉진하게 된다면, 학습자의 프로그램적 평가에 대한 수용을 촉진하고, 평가를 '부담의 연속체'로 인식하게끔 영향을 미칠 수 있으며, 궁극적으로 이 원칙의 이행을 촉진할 수 있다. 또한 성찰은 학습자의 자기 평가와 동떨어진 피드백을 수용하는 경로라는 의견도 제시되었다(상사 등 2008).
In the implementation of programmatic assessment, fostering a feedback seeking behaviour with a learning goal orientation (focused on growth and improvement) rather than a performance goal orientation (focused on gaining a positive judgement and garnering recognition of their own ability or on avoiding negative feedback) (Bok et al. 2013; Teunissen and Bok 2013) may promote learners’ acceptance and affect their perceptions of assessment as a continuum of stakes, ultimately facilitating the implementation of this principle. It has also been suggested that reflection is the path to acceptance of feedback that is out of line with learners’ self-assessment (Sargeant et al. 2008).

원칙 중 하나(원칙 12, 개별 학습자에 맞춘 평가)는 특히 학습자가 많은 프로그램에서 완전히 구현하기가 어려운 것으로 입증되었다. 그러나 다른 원칙의 이행은 적어도 프로그램 규모가 크기 때문에 원칙이 전혀 이행될 수 없는 정도까지는 프로그램의 크기에 크게 영향을 받지 않는 것으로 보였다.
One of the principles, (principle 12, assessment tailored to the individual learner), proved to be challenging to fully implement, particularly in programmes with a large number of learners. However, the implementation of the other principles did not seem to be significantly affected by the size of a programme, at least to the extent that a principle could not be at all implemented because of a large programme size.

널리 알려진 구현 장벽 중 하나는 리더, 학습자 및 교육자들 사이에서 조직 내 평가 문화의 패러다임 전환이 필요하다는 것이었다. 오랫동안 확립된 프로그램들은 더 많은 성공을 보고한 반면, 새로운 프로그램들은 여전히 이러한 문화적 변화를 경험하고 있으며, 맥락에 따라 그 정도에서 현저한 차이가 있었다. 프로그램의 조직적, 문화적 맥락을 이해하는 것은 모든 이해당사자들이 공유 환경의 필수적인 부분이기 때문에 개입이나 변화의 실행과 지속가능성을 위해 필수적이다. 컨텍스트는 특정 구현을 둘러싼 [수많은 상호작용 변수와 상황의 집합]으로 구성됩니다. 시스템의 맥락을 형성하는 모든 부분이 정당화되고legitimised 관여될involved 필요가 있다.
One of the widely recognised barriers to implementation was the need for a paradigm shift in assessment culture within the organisation, amongst leaders, learners and educators. Programmes which have longer-standing established implementations reported more success whereas newer implementations are still experiencing this cultural shift, and there were noticeable differences in the extent of this across contexts. Understanding the organisational and cultural context of programmes is essential for the implementation and sustainability of any intervention or change because all stakeholders are an integral part of a shared environment (Damschroder et al. 2009; Marks et al. 2010). Context consists of a number of interacting variables and set of circumstances that surround a specific implementation. All parts which shape the context of a system need to be legitimised and involved.

변화하는 문화에 대한 이해관계자의 태도에 대해서, 사회적 인지 모델을 기반으로 등장한 드웩의 [자기이론] 개념을 연결지어 볼 수 있다. 외부 속성(이러한 맥락적 교육 요소)은 이해관계자의 마음가짐에 따라 '고정적(entity theory)' 또는 '적응적(incremental theory)'으로 간주될 수 있다.

  • 이해당사자들이 incremental theoriest라면 개선을 모색하고 외부 속성이 더 좋게 변할 수 있다고 믿음으로써 변화를 긍정적으로 받아들일 가능성이 높다.
  • 반대로, 이해당사자들이 실체 이론가entity theorist라면, 그들은 변화에 참여하거나 변화를 시작하는데 더 저항할 것이다.

The emerging concepts of self-theories which impact personal motivation and growth mindset, built on the social cognitive model proposed by Dweck (Dweck and Leggett 1988) can be considered in relation to stakeholders’ attitudes to changing culture. External attributes (such contextual education factors) may be considered as ‘fixed’ (entity theory) or ‘adaptable’ (incremental theory) depending on the mindset of the stakeholder.

  • If stakeholders are incremental theorists, they are more likely to positively embrace change by seeking improvement and believing that external attributes can change for the better.
  • Conversely, if stakeholders are entity theorists, they will be more resistant to engage with or initiate change.

성장 사고방식 문화를 지지하고 채택하는 프로그램은 학습자와 교육자가 더 많은 도전을 하고 변화를 시작하고, 이해 당사자들이 '실패'를 학습 기회로 보고 혁신에 대한 자신감을 고취하도록 동기를 부여할 것이다(Dweck 2019; Canning et al. 2020). 개별 학습자, 교사, 조직적 수준에서 incremental theory 접근법과 learning goal orientation을 육성하는 것은 프로그램 평가의 실행에 도움이 될 것이다.  
Programmes that endorse and adopt a growth mindset culture will motivate learners and educators to take on more challenges and initiate change, encourage stakeholders to view ‘failures’ as learning opportunities and inspire confidence in innovation (Dweck 2019; Canning et al. 2020). Fostering an incremental theory approach and a learning goal orientation within individual learners and teachers, and at the organisational level would be beneficial for the implementation of programmatic assessment. 

결론
Conclusions

프로그램 평가의 시행은 시간이 걸리고, 강력한 리더십 헌신과 지원이 필요하며, 개인과 조직 차원의 지속적인 노력이 필요하다. [전통적인 평가 접근 방식]에서 교수진과 학생들에 의한 [프로그램식 평가 문화]로의 패러다임 전환은 대학 정책과 절차에 의해 야기되는 제약과 결합되어 중요하면서도 시행의 장벽을 넘을 수 없었다. 프로그램 평가 구현은 커리큘럼에 대한 새로운 통찰력을 제공하여, 프로그램이 개선해야 할 영역을 식별할 수 있도록 했다. 또한 학생과 교직원의 피드백 리터러시를 개선하고, 피드백 품질을 향상시키며, 어려움을 겪고 있는 학습자를 조기에 식별하고 지원할 수 있도록 했다. 프로그래밍 평가 원칙(평가 방법희 혼합, 삼각 측량, 종단성 및 비례성)을 성공적으로 구현하면 의사결정 프로세스에 사용할 수 있는 데이터가 개선되는 동시에 데이터 및 문서의 양이 관리 가능하고 의미 있게 유지된다.

Implementation of programmatic assessment takes time, needs strong leadership commitment and support, and involves a continuous effort at the individual and organisational level. A paradigm shift from the mindset of a traditional assessment approach to that of a programmatic assessment culture by faculty, and students, coupled with the constraints posed by university policies and procedures, were significant yet not insurmountable barriers to implementation. Programmatic assessment implementation provided a new insight into the curriculum, allowing programmes to identify areas for improvement. It also enhanced feedback literacy among students and faculty, improved feedback quality, and allowed early identification and support of struggling learners. Successful implementations of the principles of programmatic assessment (mix of methods of assessment, triangulation, longitudinality, and proportionality) improve the data available for decision making processes, whilst keeping the amount of data and documentation manageable and meaningful.

향후 작업에 대한 권장 사항
Recommendations for future work

향후 연구를 위한 여러 가지 권고사항이 있다.
There are a number of recommendations for future research.

첫째, 특정 원칙의 구현을 강화하기 위해 특정 원칙의 구현에 영향을 미칠 수 있는 중요한 요소를 추가로 조사합니다. 특정 원칙의 이행에 대해 외부 규제 기관(면허, 자격 시험)이 실시하는 필수 고부담 평가의 역할을 추가로 결정하고 탐구할 필요가 있다.

First, investigate further the critical factors that may influence the implementation of specific principles in order to enhance their implementation. The role of required high-stakes assessments conducted by external regulatory bodies (licensure, qualification exams) on the implementation of specific principles needs to be further determined and explored.

둘째, 프로그램 평가의 주요 측면에 대해 구현 품질을 향상시킬 수 있는 효과적인 교수개발 프로그램의 개발에 대해 탐구한다(특히 피드백 전달 및 프로그램 평가 리터러시 등). 또한, 학생의 프로그램 평가 실습에 대한 이해, 채택 및 활용을 촉진하는 방법이 모색되어야 한다. 여기에는 예를 들어 레지던트 매치의 성공과 같은 전문 훈련 프로그램의 높은 결과에 대한 현실과 같이 학습자의 인지 부조화를 유발할 수 있는 명시적이고 숨겨진 커리큘럼 메시지에 대한 검토가 포함될 수 있다.
Second, inquire about the development of effective faculty development programmes that may enhance the quality of implementation, particularly about key aspects of programmatic assessment such as feedback delivery and programmatic assessment literacy. Further, ways to promote students’ understanding, adoption, and utilisation of programmatic assessment practices should be sought. This could include examination of explicit and hidden curriculum messages that might cause learners cognitive dissonance, for example the reality of high-stakes consequences of professional training programmes, such as success in residency matches.

셋째, 구현에 영향을 미치는 주요 상황적, 문화적 요인 및 그러한 요인이 전 세계 여러 기관에 걸쳐 구현에 어떤 영향을 미치는지에 대한 추가 조사를 수행해야 한다.
Third, additional inquiries should be conducted about key contextual and cultural factors that affect implementation and how such factors influence implementation across different institutions worldwide.

마지막으로, 프로그램 평가, 학습자 역량 및 웰빙의 완전하고 효과적인 구현의 영향과 이 접근법이 궁극적으로 환자와 시스템 수준에서 의료 결과에 영향을 미치는 정도를 평가하기 위해 더 많은 연구가 필요하다.

Finally, more research is needed to evaluate the impact of a complete and effective implementation of programmatic assessment, learner competency and wellness, and the extent to which this approach ultimately impacts health care outcomes at the patient and system level.

 


 

 

 

Med Teach. 2021 Oct;43(10):1149-1160.

 

 doi: 10.1080/0142159X.2021.1956681. Epub 2021 Jul 30.

 

Ottawa 2020 consensus statements for programmatic assessment - 2. Implementation and practice

 

Affiliations

1Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, MD, USA.

2College of Medicine and Health, University of Exeter Medical School, Exeter, UK.

3Department of Medical Education, Melbourne Medical School, University of Melbourne, Melbourne, Australia.

4Department of Population Health Sciences, Faculty of Veterinary Medicine, Utrecht University, Utrecht, The Netherlands.

5School of Dentistry, University of Liverpool, Liverpool, UK.

6Cleveland Clinic Lerner College of Medicine of Case Western Reserve University, Cleveland, OH, USA.

7Education unit, University of Otago, Christchurch, New Zealand.

8MD Program, Dept. of Psychiatry, and The Wilson Centre, University of Toronto, Toronto, Canada.

9Department of Family Medicine, Dalhousie University, Halifax, Canada.

10Faculty of Medicine, University of British Columbia, Vancouver, Canada.

11Department of Educational Development and Research, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

PMID: 34330202

DOI: 10.1080/0142159X.2021.1956681

Abstract

Introduction: Programmatic assessment is a longitudinal, developmental approach that fosters and harnesses the learning function of assessment. Yet the implementation, a critical step to translate theory into practice, can be challenging. As part of the Ottawa 2020 consensus statement on programmatic assessment, we sought to provide descriptions of the implementation of the 12 principles of programmatic assessment and to gain insight into enablers and barriers across different institutions and contexts.

Methods: After the 2020 Ottawa conference, we surveyed 15 Health Profession Education programmes from six different countries about the implementation of the 12 principles of programmatic assessment. Survey responses were analysed using a deductive thematic analysis.

Results and discussion: A wide range of implementations were reported although the principles remained, for the most part, faithful to the original enunciation and rationale. Enablers included strong leadership support, ongoing faculty development, providing students with clear expectations about assessment, simultaneous curriculum renewal and organisational commitment to change. Most barriers were related to the need for a paradigm shift in the culture of assessment. Descriptions of implementations in relation to the theoretical principles, across multiple educational contexts, coupled with explanations of enablers and barriers, provided new insights and a clearer understanding of the strategic and operational considerations in the implementation of programmatic assessment. Future research is needed to further explore how contextual and cultural factors affect implementation.

Keywords: Assessment; feedback; general; portfolio; theory.

평가프로그램에 대한 오타와 2020 합의문 - 1. 원칙에 대한 합의 (Med Teach, 2021)
Ottawa 2020 consensus statement for programmatic assessment – 1. Agreement on the principles
Sylvia Heenemana, Lubberta H. de Jongb, Luke J. Dawsonc, Tim J. Wilkinsond , Anna Ryane, Glendon R. Taitf, Neil Riceg , Dario Torreh , Adrian Freemang and Cees P. M. van der Vleuteni 

 

 

 

배경
Background

2010년, 오타와 회의는 좋은 평가를 위한 일련의 합의된 기준을 만들었다(Norcini et al. 2011). 단일 평가를 넘어 후속적으로 특정 목적을 위한 증거를 제공하기 위해 통합된 일련의 개별 측정(예: 졸업 또는 다음 연도의 승진 결정)을 체계적으로 결합하는 [평가 시스템]에도 유사한 기준 세트가 필요하다는 것이 인식되었다. 따라서 오타와 2018 합의 프레임워크에서는 [평가 시스템]에 적용되는 별도의 프레임워크가 제시되었다(Norcini 등 2018). 오타와 2018 합의에서 설명한 바와 같이, 평가 시스템은 다양한 형식을 가질 수 있다. 평가 시스템은 선발 및 면허 시스템과 같은 다층적 결정을 용이하게 하기 위해 다른 정보와 결합된 일련의 평가로 구성될 수 있다. 다른 평가 시스템은 진도 시험 및 프로그램 평가와 같은 교육 및 교육 설계 접근방식을 우선시한다(Norcini et al. 2018).

In 2010, the Ottawa conference produced a set of consensus criteria for good assessment (Norcini et al. 2011). It was recognised that a similar set of criteria would be needed for systems of assessment, which goes beyond single assessments, and systematically combines a series of individual measures that are subsequently integrated to provide evidence for a certain purpose, e.g. a decision for graduation or promotion to a subsequent year. Therefore, in the Ottawa 2018 consensus framework, a separate framework applying to systems of assessment was presented (Norcini et al. 2018). As described in the Ottawa 2018 consensus, systems of assessment can have various formats. A system can consist of a series of assessments, combined with other information, to facilitate a multi-layered decision, e.g. admission and licensure systems. Other systems of assessment prioritise educational and instructional design approaches, such as progress testing and programmatic assessment (Norcini et al. 2018).

[프로그램 평가]는 개별 평가만 (합격-불합격) 결정에 사용할 경우, 모든 개별 평가 방법 또는 도구가 각자의 한계를 가지고 있기에, 타협점을 필요로한다는 원칙에 기초한다. 그러나, 흔히 사용되는 평가 접근법은 종종 모듈식이며, 기간 종료/모듈/과정 평가를 통해 등급 및 관련 합격/불합격 결정을 이끌어낸다. 평가의 [전통적인 총괄접근법]은 바람직하지 않은 학습 접근법을 추진하고, 외적 동기를 촉진하고, 주어진 피드백을 무시하는 것과 같은 여러 의도하지 않은 결과를 초래한다(van der Vleuten and Schwirth 2005). 
Programmatic assessment was introduced by van der Vleuten and Schuwirth (van der Vleuten et al. 2012; van der Vleuten and Schuwirth 2005) and is based on the principle that every individual assessment method or tool has limitations and compromises are needed if just individual assessments are used for (pass–fail) decisions. In contrast, common assessment approaches are often modular, with an end of period/module/course assessment, that leads to a grade and an associated pass–fail decision. This traditional summative approach to assessment has multiple unintended consequences, such as driving undesirable learning approaches, promoting extrinsic motivation, and ignoring any feedback that is given (van der Vleuten and Schuwirth 2005).

프로그램 평가 모델은 위에 언급된 문제들에 대한 잠재적인 해결책입니다. 프로그램 평가 모델은 [평가가 가지고 있는 학습과 의사결정 기능을 최적화하기 위하여 평가와 교육을 설계하는 특정한 접근방식]으로 정의되었다. 다양한 평가 형식의 여러 데이터 지점에서 비롯된 평가 정보와 피드백은 학습자와 스태프가 취합하여, 학습을 위한 목적으로 사용할 수도 있고, 진급 또는 인증과 같은 고부담 의사 결정에 사용될 수 있다.

The programmatic assessment model as proposed by van der Vleuten and Schuwirth, is a potential solution to the abovementioned problems. The programmatic assessment model has been defined as a specific approach to the design of assessment and education aimed at optimising the learning and decision function of assessment. Assessment information and feedback, originating from multiple data points in a variety of assessment formats, is aggregated by the learner and staff and is used for learning and for high-stakes decisions such as promotion to the next year or certification (Schuwirth and van der Vleuten 2011; van der Vleuten et al. 2015).

프로그램 평가는 다양한 핵심 논문(표 1)에 요약된 바와 같이 여러 가지 핵심 원칙에 기초한다. 그러나 프로그램 평가는 교육적 설계 접근법이며, [프로그램 평가의 수용가능성은 교육 프로그램의 가치와 제도적 요건에 의해 부과된 한계와 같은 다양한 요소에 의해 강하게 영향을 받는다]는 것을 인식해야 한다. 프로그래밍식 평가는 평가 개념이지 레시피가 아니라는 점을 유념하는 것이 중요하다. 통과가 필요한 일련의 모듈 또는 과정이 있는 전통적인 교사 중심의 커리큘럼의 맥락에서, 프로그래밍식 평가 접근법은 가치가 낮다. 교육에 대한 구성주의적 관점을 가진 학습자 중심의 커리큘럼에서, 종단적 스킬 발달을 사용하며, 평생 학습과 자기주도적 학습에 중점을 둔 경우에 프로그래밍 평가가 적합하다. 
Programmatic assessment is built on a number of key principles, as outlined in various key papers (Table 1). It is however important to realise that programmatic assessment is an instructional design approach (van der Vleuten and Schuwirth 2005) and its acceptability is strongly influenced by a variety of factors such as the values of the educational programme and limitations imposed by institutional requirements. It is critical to note that programmatic assessment is an assessment concept and not a recipe. In the context of a conventional teacher-centred curriculum with a set of modules or courses that need be passed, a programmatic assessment approach has less value. In a learner-centred curriculum with a constructivist view on education, using longitudinal skill development and with an emphasis on life-long learning and self-directed learning, programmatic assessment is a natural fit.

현재 문헌에 기술된 원칙(표 1)은 중요하지만 다양한 형태로 실현될 수 있다.
The principles as delineated in current literature (Table 1) are important, yet can be realised in many different manifestations. 

 

현행 문헌에 기술된 핵심 원칙(표 1)은 평가 및 교육 접근방식을 ['평가의 프로그램']이 아니라, [프로그램적 평가]로 특징짓는지 여부를 정의하는 데 중요하다. 모든 학교에는 평가 프로그램이 있지만 모든 학교가 프로그램화된 것은 아니다. '프로그램적'이 되기 위해서는, 이론적 원칙이 교육 및 평가 프로그램의 설계에 통합되어야 하며, 학습 기능(즉, 원칙 1/2/3/11/12)과 평가의 의사결정 기능(즉, 원칙 7/8/9/10) 모두에 관련된 원칙이 존재해야 한다. 이 Ottawa 2020 합의서의 목적은 실무와 연구의 통찰력을 사용하여 표 2에 제시된 프로그램 평가 원칙에 대한 합의를 정의하는 것이다.
The key principles as delineated in current literature (Table 1) are important for defining whether the assessment and education approach should be characterised as programmatic assessment rather than ‘programmes of assessment’. All schools have a programme of assessment, but not all are programmatic. To be programmatic, the theoretical principles should be integrated into the design of the teaching and the assessment programme, and principles pertaining to both the learning function (i.e. principle 1/2/3/11/12) and the decision function of assessment (i.e. principle 7/8/9/10) should be present. The aim of this Ottawa 2020 consensus paper is to use insights from practice and research to define agreement on the principles for programmatic assessment, which are presented in Table 2.

 

 

프로그램 평가의 이론적 원리에 대한 합의
Consensus on the theoretical principles of programmatic assessment

판 데르 블뢰텐과 슈비르트가 제안한 프로그램 평가 이론과 모델은 파트 1이 프로그램 평가의 원칙에 대한 합의에 도달하기 위한 출발점이었다.

The theory and model of programmatic assessment as proposed by van der Vleuten and Schuwirth was the starting point for part 1 to reach a consensus on the principles of programmatic assessment. 

첫 번째 단계는 프로그램에 프로그램 평가를 도입했거나 사용하고 있는 프로그램 리더나 평가 책임자와 같은 실무 경험이 있거나 학자와 교육학자 등 이론과 연구에 대한 경험이 있는 다수의 전문가를 모으는 것이었다. 
The first step was to assemble a number of experts that have experience with either the practice, such as programme leaders or directors of assessment that introduced or are using programmatic assessment in their programmes, or experience with theory and research, such as scholars and educationalists, or both. 

두 번째 단계는 인지된 구성요소, 근거 및 프로그램 평가 설계의 중요성에 대한 목록을 만드는 것이었다. 전문가 그룹은 표 1과 같이 원칙에 관한 질문을 가지고 설문조사를 완료하도록 초청되었다.
The second step was to make an inventory for the perceived components, rationale, and importance of the programmatic assessment design. The group of experts were invited to complete a survey with questions regarding the principles as shown in Table 1:

  1. 여러분은 이 원칙에 동의하나요?
  2. 이 원칙의 구성 요소는 무엇이라고 생각하십니까?
  3. 이 원칙은 프로그램 평가에서 얼마나 중요한가?
  4. 이 원칙은 지키기가 쉬운가요?
  5. 이 원칙을 프로그램에 구현한 적이 있습니까? 그렇다면 어떻게 구현합니까?
  6. Do you agree with this principle?
  7. What do you think are components within this principle?
  8. How important is this principle in programmatic assessment?
  9. Is this principle easy to adhere to?
  10. Have you implemented this principle in your programme and if yes, how?

전문가 그룹에 설문 조사와 함께 초청장을 보내기 전에 시범적으로 하위 그룹(SH, LdJ, LD, TW)이 먼저 조사를 완료했으며 토론 후 원칙 1-3, 원칙 4, 5 및 원칙 6과 7에 대한 응답을 결합하기로 결정했다. 이 조사는 3개 대륙에 걸쳐 6개국의 15개 프로그램을 대표하는 전문가들에 의해 완료되었다. 이 15개 프로그램의 특징은 표 3에 나와 있습니다.
In a pilot prior to sending the invitation with the survey to the expert group, a subgroup (SH, LdJ, LD, TW) first completed the survey and after discussion decided to combine the responses for principles 1–3, principles 4 and 5, and principles 6 and 7, given that these share similar theoretical tenets of the programmatic assessment model. The survey was completed by experts representing 15 programmes from six countries across three continents. The characteristics of these 15 programmes are shown in Table 3.

 

사전 컨퍼런스 토론에 참석한 전문가 그룹 구성원들과 공감대 초안을 분석하고 논의한 결과, [언어와 공식화]가 중요함을 알 수 있었다. 언어와 수사학의 영향은 환자 의사소통의 교육이나 '역량'이라는 단어의 해석과 같은 다른 교육 관행에서 나타났다(Lingard 2007, 2009). 원칙 9와 12의 표현은 특정한 오해를 불러일으켰고 더 명확히 하고 개선할 필요가 있었다. 그 결과, 9번과 12번 원칙은 재검토되었고, 다섯 가지 질문에 대한 전문가들의 답변은 컨퍼런스 워크숍에 앞서 다시 정리되고 분석되었다. 이 요청에 전문가 15명 중 13명이 응했다.
The analysis and discussion of the draft consensus with the members of the expert group present at the pre-conference discussion showed that language and formulation were important. The impact of language and rhetoric has been shown in other educational practices, such as the teaching of patient communication or the interpretation of the word ‘competence’ (Lingard 2007, 2009). The phrasing of principles 9 and 12 led to certain misunderstandings and needed further clarification and refinement. Consequently, principles 9 and 12 were rephrased and experts’ responses to the five questions were then recollected and reanalysed, prior to the workshop at the conference. Thirteen of the 15 experts responded to this request.

합의, 중요도, 준수 및 이행의 분류를 위한 데이터는 표 4에 요약되어 있다. 

The data for the categorisation of agreement, importance, adherence, and implementation are summarised in Table 4

  • 칙 8에서는 삼각측량 및 집계에 사용되는 프레임워크가 반드시 역량 기반 프레임워크가 아니므로 '적절한' 프레임워크로 변경되었다(원칙 8: 평가 정보는 데이터 포인트 전체에서 적절한 프레임워크로 삼각측량됨).

For principle 8, it was discussed that the framework used for triangulation and aggregation is not necessarily a competency-based framework, therefore this was changed to an ‘appropriate’ framework (principle 8: Assessment information is triangulated across data-points towards an appropriate framework).

  • 원칙 10에서는 수행자료 검토에서 학습자의 중심 역할과 중간 검토 목적을 논의했고, 표현 변경으로 이어졌다(원칙 10: 학습자와 진행에 대해 논의하고 결정하는 중간 검토).

For principle 10, the central role of the learner in the review of his/her performance data and the purpose of the intermediate review was discussed, and led to a change in the phrasing (principle 10: Intermediate review is made with to discuss and decide with the learner on their progression).

  • 원칙 11에서 멘토라는 단어는 코치라는 단어로 보충되었다.

For principle 11, the word mentor was supplemented by the word coach.

  • 원칙 5와 7의 경우, 변경사항은 주로 문법과 구문과 관련이 있다. 내러티브에 대한 주제 분석과 회의 중 피드백과 함께, 이것은 원칙에 대한 다음과 같은 합의를 이끌어냈다.

For principles 5 and 7, the changes mainly concerned grammar and syntax. Together with the thematic analysis of the narratives and the feedback during the conference, this led to the following agreement on the principles:

 
 

원리 1/2/3: 

모든 (일부) 평가는 데이터 포인트일 뿐이다/

모든 데이터 포인트는 학습자에게 의미 있는 피드백을 제공함으로써 학습에 최적화된다/

합격/실패 결정은 단일 데이터 포인트에서 내려지지 않는다.
Principle 1/2/3:

- every (part of an) assessment is but a data-point/

- every data-point is optimised for learning by giving meaningful feedback to the learner/

- pass/fail decisions are not given on a single data-point

 

이러한 원칙의 근거는 ['평가가 학습 행동을 주도한다']는 관찰에서 비롯되며, 따라서 학습 접근법에 대한 긍정적인 영향이 가장 중요해야 한다. 일반적인 모듈식 종합 평가 시스템에서 더 많은 부정적인 교육 영향이 나타난다(알 카드리 외). 2009). 평가가 학습을 어떻게 주도하는지drive는 복잡한 문제이다. 그러나 (평가) 과제와 평가 시스템 설계는 모두 [영향에 대한 학습자의 판단, 인식된 행위자성agency, 대인관계 요인]와 같은 [학습자 요인]에 의해 매개되는 중요한 메커니즘임이 분명해지고 있다(실리어 외 2012a, 2012b; Schut 외 2018). 또한 일부 전통적인 평가 시스템에서는 피드백이 무시될 수 있는 것으로 밝혀졌다(Harrison et al. 2013, 2015). 이러한 연구 결과는 평가가 의미 있는 학습을 주도하고 바람직한 학습 접근법을 육성하기 위해 프로그래밍 평가의 목표를 강화하는 데 가장 중요했다. 평가 프로그램은 의미 있는 (종종 서술적인) 피드백을 생성함으로써 평가의 학습 기능을 최적화하도록 설계되었다. 또한 단일 평가를 통과-실패 결정에 사용하지 않는다.
The rationale for these principles derives from the observation that ‘assessment drives learning behaviour’ and therefore a positive impact on learning approaches must be paramount. More adverse educational impacts are seen in typical modular, summative assessment systems (Al Kadri et al. 2009). How assessment drives learning is complex; however, it is becoming clear that both the (assessment) task and the assessment system design are important mechanisms, which are mediated by learner factors, such as the learner’s appraisal of the impact, perceived agency, and interpersonal factors (Cilliers et al. 2012a, 2012b; Schut et al. 2018). In addition, it has been found that feedback can be ignored in some traditional assessment systems (Harrison et al. 2013, 2015). These findings were paramount in reinforcing the objective of programmatic assessment to have assessment drive learning in a meaningful way and foster desirable learning approaches. The assessment programme is designed to optimise the learning function of assessment by the generation of meaningful, often narrative feedback and single assessments not being used for pass–fail decisions.

전반적인 합의가 이루어졌으며 목록을 완성한 15개 프로그램 중 대다수가 이러한 원칙을 이행하였다(표 4). 학습자에게 의미 있는 피드백을 제공해야 할 필요성이 중요한 요소로 인식되었습니다. 복잡한 스킬에 대한 피드백은 내러티브 정보(Govaerts 및 Van der Bleuten 2013)를 통해 향상되었습니다. 서술적 피드백은 또한 표준화된 평가에 의미를 더할 수 있다(Tekian et al. 2017). 또한 피드 포워드를 가능하게 하고 학습을 위한 종단적 모니터링과 가이드를 지원하기 위해 [학습 및 평가 커리큘럼 구조의 종단적 구성]이 언급되었다. 이는 또한 이러한 종단적 평가 커리큘럼 구조의 설계를 의식하는 것의 중요성을 강조했다. 이를 위해, 평가의 매핑 또는 청사진도 또한 4/5 원칙과 연결되는 중요한 구성 요소로 제시되었다. 사고방식과 평가문화에 변화가 필요하다는 지적도 나왔다. 실제로 학습을 자극하기 위한 저부담 설계와 학습자에 대한 종합적인 인식을 위한 고부담 설계 사이의 불일치가 나타났다(Bok et al. 2013; Heeneman et al. 2015). 학습자의 행위자성agency을 위한 기회와 함께 의도적인deliberate 설계, 학습자를 위한 지지적 평가 및 피드백 리터러시 프로그램은 프로그램 평가의 학습 기능을 실현하는 데 도움이 될 수 있다(Price et al. 2012; Schut et al., 2020; Sutton 2012).
There was overall agreement and the majority of the 15 programmes that completed the inventory implemented these principles (Table 4). The need to generate meaningful feedback for learners was recognised as an important component. Feedback for complex skills is enhanced by narrative information (Govaerts and van der Vleuten 2013). Narrative feedback can also add meaning to standardised assessment (Tekian et al. 2017). In addition, the longitudinal organisation of learning and assessment curricular structures was mentioned both to enable feed-forward and to support longitudinal monitoring and guidance for learning. This also highlighted the importance of being conscious of the design of these longitudinal assessment curricular structures. For this, mapping or blueprinting of assessment was also indicated as an important component, which links to principle 4/5. It was also indicated that a change in mindset and assessment culture is needed. Indeed a discrepancy between a low-stakes design to stimulate learning and a high-stakes, summative perception of learners has been shown (Bok et al. 2013; Heeneman et al. 2015). A deliberate design, with opportunities for the learners’ agency, a supportive assessment and/or feedback literacy programme for learners may help actualise the learning function of programmatic assessment (Price et al. 2012; Schut et al. 2018, 2020; Sutton 2012).

원칙 4/5: 

평가 방법은 혼합될 수 있다.

방법 선택은 해당 방법을 사용하기 위한 교육적 정당성에 달려 있다.

 

Principle 4/5:

- there is a mix of methods of assessment

- the choice of method depends on the educational justification for using that method

 

이러한 원칙에 대한 중요한 근거는 모든 평가 방법이 타당성과 신뢰성 측면에서 한계가 있으며, 밀러 피라미드에서 하나의 수준에만 사용될 수 있다는 것이다(van der Vleuten et al. 2010). 따라서, 피라미드 전체를 커버하고 신뢰성과 타당성의 적절한 조합을 보장하기 위해 정교하고 목적적인 방법의 혼합이 필요하다. 또한 평가 형식의 선택은 의도된 학습 결과 및 교육 활동에 대한 [건설적 정렬constructive alignment]에 기초해야 한다(Biggs 1996).

An important rationale for these principles is that any assessment method has its limitations in terms of validity and reliability, and can be used for only one level of Miller’s pyramid (van der Vleuten et al. 2010). Therefore, an elaborate and purposeful mix of methods needs to be used to cover the whole pyramid and to ensure an appropriate mix of reliability and validity. In addition, the choice of any assessment format needs to be based on constructive alignment with the intended learning outcome and the teaching activities (Biggs 1996).

이러한 원칙에 전반적으로 동의하였고 목록을 완성한 15개 프로그램 중 대다수가 어느 정도 이를 구현하였다(표 4). 일부 전문가들은 이 원칙이 프로그램 평가뿐만 아니라 모든 교육 및 평가 설계에서 필요하기 때문에 '부분적' 중요성을 나타냈다. 이러한 원칙을 적용하는 데 필요한 구성요소는 청사진에 부합하는 건설적 정렬의 원칙에 따라 신중하게 평가 방법을 선택하는 것입니다. 과정의 블루프린팅에 대한 가이드라인이 설명된 바 있으나, 프로그램 평가에서 이러한 청사진들은 [프로그램의 전체적인 평가 설계]를 포함해야 하며, 고위 지도부와 경영진의 거버넌스와 지원은 필수적이다. 또한 효용 모델은 이러한 원칙의 중요한 기본 개념으로 제시되었다(Van der Bleuten 1996). 이 모델은 (신뢰성, 타당성 및 교육적 영향과 같이) 평가 방법이나 도구를 판단할 수 있는 여러 요소를 개념적으로 곱하여 평가 효용성utility을 특징짓는다. 개념적 곱셈 모델은 어떤 요소가 0이면 효용이 0이라는 것을 강조한다. 전문가들은 프로그램 평가에서 모든 평가 방법이 사용될 수 있고 효용성에 가치가 있지만, 이는 전체 평가 프로그램의 맥락에서 볼 때에만 판단할 수 있다고 지적했다.

There was overall agreement with these principles and the majority of the 15 programmes that completed the inventory implemented them to some degree (Table 4). Some experts indicated a ‘partial’ importance, as this principle would be necessary in any educational and assessment design, not just in programmatic assessment. The components needed to apply these principles would be a deliberate choice of assessment methods guided by the principles of constructive alignment adhering to a blueprint. Guidelines of the blueprinting of courses have been described (Mookherjee et al. 2013; Villarroel et al. 2018), however in programmatic assessment, these blueprints need to cover the whole assessment design of the programme (Wilkinson and Tweed 2018), and governance and support by senior leadership and management is indispensable. In addition, the utility model was indicated as an important underlying concept of these principles (van der Vleuten 1996). This model characterises assessment utility by conceptually multiplying a number of elements on which assessment methods or instruments can be judged, such as reliability, validity, and educational impact. This conceptual multiplication model emphasises that if any element is zero, then the utility is zero. The experts indicated that in programmatic assessment, any assessment method can be used and be of value for the utility, but this can only be judged when seen within the context of the entire assessment programme.

원칙 6/7: 

총괄평가와 형성평가의 것의 구별은 학습자 진전에 대한 일련의 이해관계로 대체된다.

학습자 진척에 대한 의사결정은 부담에 비례한다.

 

Principle 6/7:

- the distinction between summative and formative is replaced by a continuum of stakes/

- decision-making on learner progress is proportionally related to the stakes

 

프로그램 평가에서 평가의 부담은 낮은 평가에서 높은 평가까지의 연속체로 개념화된다. 이것은 형성 평가와 총괄 평가의 전통적인 이분법과 대조된다. 저부담 평가의 결과는 합격 또는 불합격 측면에서 학습자에게 전혀 consequences가 없거나 매우 제한적으로만 consequences를 초래하며, 대신 이 데이터 포인트는 원칙 1/2/3에서 예시된 것처럼 학습에 최적화된다. 고부담 평가나 고부담 결정은 졸업이나 승진과 같은 중요한 결과로 이어진다. 많은 저부담 평가의 정보는 고부담 의사결정에 기여하며, 고부담 결정일수록 의사결정에 더 많은 데이터 포인트가 필요하다(van der Vleuten et al. 2012).
In programmatic assessment, the stakes of the assessment are conceptualised as a continuum from low- to high-stakes. This contrasts with the more traditional and binary dichotomy of formative versus summative assessment. In a low-stakes assessment, the results have no or limited consequences for the learner in terms of passing or failing, this datapoint instead is optimised for learning, as exemplified in principle 1/2/3. The high-stakes assessment or high-stakes decision, has important consequences, such as graduation or promotion. The information from many low-stakes assessments contributes to the high-stakes decision, and the higher the stakes, proportionally more data points are needed for the decision (van der Vleuten et al. 2012).

이 원칙들에 대한 전반적인 동의가 있었다. 그러나 목록을 완성한 15개 프로그램 중 여러 프로그램은 중요도의 정도와 이를 준수하기 쉬운지에 대해 엇갈린 합의를 나타냈다(표 4). 저부담 평가는 여전히 학습자들의 불안감을 유발하고, 1/2/3 원칙에서도 알 수 있듯이, 교사들이 형성-총괄이라는 이분법적 패러다임에서 저부담-고부담 연속체로 전환하기가 쉽지 않을 수 있다고 언급했다. 교사들의 인식과 관련하여, 연구는 또한 프로그램 평가의 사용이 교사들의 관행과 평가 신념을 긍정적으로 변화시킬 수 있다는 것을 보여주었다. 원칙 6/7에 따르면, 교사는 의사결정 결과가 아닌 평가의 학습 결과(원칙 1/2)에 집중할 수 있다(원칙 9 참조). 이렇게 초점이 달라지만, [교사들의 통제권]와 [학습자들의 독립 허용] 사이의 긴장은 고려해야겠지만, 역할 갈등role conflict을 줄이는 것으로 나타났다. 
There was overall agreement with these principles. However, several of the 15 programmes that completed the inventory indicated a mixed agreement about the degree of importance and whether it was easy to adhere to (Table 4). It was mentioned that a low-stakes assessment would still cause anxiety among learners, and it may not be easy for teachers to shift from a formative-summative paradigm to a low-high stakes continuum, as also indicated for principle 1/2/3. Regarding the perceptions of teachers, research has also shown that the use of programmatic assessment can positively transform teachers practices and assessment beliefs. Given principle 6/7, teachers can focus on the learning outcome of assessment (principle 1/2/3) and not the decision making outcome (see principle 9). This shift in teachers’ focus was shown to reduce role conflicts, although the tension between teachers taking control and allowing learners' independence still needs careful navigation (Jamieson et al. 2021; Schut et al. 2020).

거의 모든 프로그램은 다양한 형식을 사용하여 교육 및 평가 프로그램에서 원칙 6/7을 구현하였다. 예를 들어, 

  • 위임 가능한 전문 활동 
  • 포괄적인 연말 포트폴리오 평가에 기초한 고부담 결정
  • ITER에 기초한 학습 계획 평가와 이를 위한 역량위원회의 설치

Almost all programmes implemented principles 6/7 in their education and assessment program, using various formats, e.g.

  • entrustable professional activities (ten Cate 2005; ten Cate and Scheele 2007),
  • a high-stakes decision based on a comprehensive end of year portfolio assessment (Friedman Ben David et al. 2001; Tochel et al. 2009; van Tartwijk and Driessen 2009), and
  • assessment of learning plans based on in-training assessment reports (Dawson et al. 2015; Laughlin et al. 2012), for which ‘competence committees’ were installed (see principle 9).

워크숍 이전과 워크숍 기간 동안 전문가 및 오타와 참석자들과의 토론에서 이러한 원칙의 사용에 대한 몇 가지 주의사항이 제기되었다.

  • 한 가지는 [고부담 결정을 위한 데이터 포화 필요성]에 관한 것이다. [의사결정자들 사이의 합의]는 [필요한 최소치를 초과한 데이터 포인트의 숫자]와는 무관하다는 증거가 있으며, 이는 데이터 포화에 필요한 최소한의 숫자를 정하고, 주어진 맥락에서 얻어질 수 있음을 시사한다(de Jong 등 2019).
  • [Teaching and Working 환경에서의 심리적 안전]의 필요성도 제기됐다. 프로그램 평가가 시행되는 환경에서 심리적 안전에 대한 연구는 아직 거의 없다. 학습자는 낮은 점수를 높은 점수로 인식하고 불안감을 느낄 수 있습니다. Tsuei 외 연구진(2019)은 [학습자가 심리적으로나 교육적으로 안전하다고 느끼는 많은 특징들]이 프로그램적 평가의 원칙으로도 인정될 수 있음을 제안했다. 여기에는 동료와 멘토와의 협력적인 관계를 맺는 것, Consequences를 걱정하지 않고 학습에 집중하는 것 등이 있다. 그럼에도 불구하고, 관계적 구성relational construct로서의 [교육적 안전감]은 어떤 교육 설계에서도 주의와 인식이 필요하다.
  • 마지막으로, 프로그램적 평가의 고부담 의사결정 기능의 맥락에서도, [학습자 개발에 초점을 맞추고 성찰이 가능하도록 해야 할 필요성]이 표명되었다. 성찰과 자기 모니터링은 전문적인 발전과 성과를 위해 중요한 것으로 인식되어 왔지만, 명백한 도구적이고 의무적인 접근 방식은 학습자에게 무의미한 활동으로 이어질 수 있습니다(Murdoch-Eaton 및 Sandars 2014). 포트폴리오를 작성할 때, 역량개발에 대해 학습자가 어떤 것을 문서화하는지는 학습과 평가 사이의 긴장, 포트폴리오의 목적에 대한 학습자의 인식 등에 영향을 받을 수 있는 것으로 나타났다. 그러나 학습자는 프로그래밍 평가(원리 1/2/3)의 학습 기능 및 코치의 지침(원리 11)에 성찰 또는 자기 평가가 포함되면 학습에 도움이 된다는 것도 인지한다(Heeneman et al. 2015).

In the discussion with experts and Ottawa attendees prior to, and during the workshop, several points of attention were raised for the use of these principles.

  • One point concerned the need for data saturation for high-stakes decisions. There is some evidence that consensus amongst decision makers is independent of the number of datapoints exceeding the required minimum, suggesting that data saturation can be obtained in a given context, with a defined minimum of datapoints (de Jong et al. 2019).
  • Another point was raised on the need for psychological safety in teaching and working environments. There is little research yet on psychological safety in a setting where programmatic assessment is implemented. Learners can perceive low-stakes assessment as high-stakes and feel anxious. Tsuei et al. (2019) suggested that a number of features that learners would perceive as beneficial for feeling psychologically or educationally safe, are recognisable in the principles of programmatic assessment, such as having supportive relationships with peers and mentors and a focus on learning without considering consequences. Nevertheless, educational safety as a relational construct needs attention and awareness in any education design.
  • Finally, the need was expressed to keep a focus on learner development and enable reflection, in the context of the high-stakes decision function of programmatic assessment. Reflection and self-monitoring have been recognised as important for professional development and performance, yet an overt instrumental and mandatory approach can lead to meaningless activities for the learners (Murdoch-Eaton and Sandars 2014). It has been shown that what learners document on competency development in a portfolio can be influenced by tensions between learning and assessment, and the learners’ perceptions about the purpose of the portfolio (Oudkerk Pool et al. 2020). However, learners also perceive the embedding of reflection or self-assessment in the learning function of programmatic assessment (principle 1/2/3) and the guidance from a coach (principle 11) are helpful for their learning (Heeneman et al. 2015).

 

원칙 8: 적절한 프레임워크에 대한 데이터 포인트에 걸친 평가 정보 삼각 측량
Principle 8: assessment information triangulation across data-points, towards an appropriate framework

삼각측량의 원칙은 도메인 특이성에 기초한다. 역량과 같은 구조는 컨텐츠 도메인이 동일할 때 평가 형식보다 잘 일반화된다. 이것은 또한 [시험 형식]이 아닌 [(학습자의) 속성attribuate]에 따라 증거에 기반한 결정을 내릴 수 있는 가능성을 열어준다. 예를 들어 한 학생이 [OSCE의 구성 요소 중 병력청취 점수]를 활용하여 병력청취에 대해 요구되는 표준에 도달했는지 판단할 때, 여기에 [미니-CEX의 병력청취 구성 요소], 그리고 [환자 의견 조사에서 병력청취 구성 요소]까지도 함께 사용하는 것이다.
The principle of triangulation is based on domain-specificity; constructs such as competencies generalise well over assessment formats when the content domain is the same. This also opens up the possibility of making evidence-based decisions by attribute rather than by test format – for example determining if a learner has reached the required standard on history taking might draw on the history taking components of an OSCE, alongside the history taking components of a mini-CEX, and alongside the history taking components of a patient opinion survey.

정보 결정에서 이러한 데이터 삼각측량은 강력한 의사결정의 중요한 구성 요소이다(Norman 등 1996년; Schwirth 및 Van Der Vleuten 2019년).  따라서, 프로그램 평가에서, 동일한 내용에 관련된 평가 정보는 지식, 기술, 태도 또는 역량과 같은 구조에 삼각측량 된다. 적절한 프레임워크로 간주되는 설계와 프로그램의 국가 또는 입법 경계에 따라 달라집니다. 의학 교육에서 역량은 종종 사용된다(Frank et al. 2010).

We see this triangulation of data in informing decisions as an important component to robust decision making (Norman et al. 1996; Schuwirth and Van Der Vleuten 2019). Thus, in programmatic assessment, assessment information that pertains to the same content is triangulated, to constructs such as knowledge, skills, and attitude or competencies. It will depend on the design, and national or legislative boundaries of the programme what is considered as an appropriate framework. In medical education, competencies are often used (Frank et al. 2010).

목록을 완성한 15개 프로그램 중 일부(표 4)는 의도적인 설계, 데이터 관리를 위한 일부 기술, 교수진과 프로그램의 이해 및 지원으로 인해 준수하기가 덜 쉽다는 것을 나타냈지만, 원칙에는 전반적으로 동의하였다. 삼각측량의 개념은 종종 수치 데이터와 서술 데이터의 조합을 요구하기 때문에 교육 실습으로 변환하기가 어려울 수 있다. 최종 결과는 계산이 아니라 [학습자에 대한, 학습자를 위한 풍부한 정보가 담긴 내러티브]입니다. 이를 위해서는 교육 및 평가 설계, 정렬, 교수진 개발, 필요한 수준의 직원 평가 소양 및 전문 지식, 데이터의 전체적인 관점을 취하는 효과적인 그룹 의사결정 프로세스의 확립이 필요하다(나중에 참조).
There was overall agreement with the principle, although some of the 15 programmes that completed the inventory (Table 4) indicated that it was less easy to adhere to, due to the need for a deliberate design, some form of technology to manage the data, and an understanding and support of this concept by faculty and the programme. The concept of triangulation can be difficult to translate into educational practice, as it often asks for a combination of numerical and narrative data. The end result is not a calculation but an informative narrative about and for the learner. This requires central governance of the educational and assessment design, alignment, faculty development, a necessary level of staff assessment literacy and expertise (Prentice et al. 2020; Schuwirth and Van Der Vleuten 2019), and establishment of effective group decision making processes which take a holistic view of the data (see later).

15개 프로그램(표 4)의 목록은 대부분의 프로그램이 다음의 구성요소를 통해 이 원칙을 구현했다: 적절한 방식으로 고품질 데이터를 수집할 뿐만 아니라, 교육 활동, 평가 및 평가 도구를 신중하게 설계한다. 이를 위해서는 모든 평가와 피드백 정보를 수집하는 강력한 시스템이 필수적이다. 전자 포트폴리오와 같은 기술 지원 접근방식이 자주 사용되며, 프로그램 평가에 필요한 목적을 제공할 수 있다.

  • (1) 모든 정보의 보관소(서식, 평가 결과, 회의록),
  • (2) 평가 프로그램의 관리적administrative 목적 촉진(예: 멀티소스 피드백 도구, 다중 플랫폼을 통한 평가 및 피드백 양식 로딩, 액세스 관리)
  • (3) (적절한) 프레임워크를 사용하여 집계된 데이터 포인트의 개요를 생성하여 삼각 측량 함수를 지원한다.
  • (4) 학습자의 자기 평가 및 행위자성agency를 지원한다(Tillema 2001; van Tartwijk and Driessen 2009).

The inventory amongst the 15 programmes (Table 4) showed that most have implemented this principle with the components being: a careful design of educational activities, assessments, and assessment instruments, as well as high quality data aggregation in an appropriate manner. A robust system to collect all assessment and feedback information is essential (van der Vleuten et al. 2015). A technology supported approach, e.g. an electronic portfolio, is often used and could serve the purposes needed for programmatic assessment,

  • (1) as a depository for all information (feedback forms, assessment results, minutes),
  • (2) to facilitate administrative purposes of the programme of assessment (e.g. direct online completion of forms, such as multisource feedback tools, loading of assessment and feedback forms via multiple platforms, managing access),
  • (3) to support the triangulation function by generating overviews of aggregated datapoints using the (appropriate) framework, and
  • (4) to support learners’ self-assessment and agency (Tillema 2001; van Tartwijk and Driessen 2009).

평가와 피드백 정보를 수집하기 위해 선택한 테크놀로지 접근법은, 코치(원리 11)가 더해져서, 학습 기능(원리 1/2/3), 프로그래밍 평가의 의사결정 기능(원리 9)을 지원할 수 있다.

The technology approach chosen to collect the assessment and feedback information can, together with a coach (principle 11), support the learning function (principle 1/2/3), and the decision function of programmatic assessment (principle 9).

원칙 9: 전체론적 접근 방식을 사용하여 신뢰할 수 있고 투명한 방식으로 내린 고위험 의사 결정
Principle 9: high-stakes decisions made in a credible and transparent manner, using a holistic approach

원칙 6/7에 내재된 바와 같이, 프로그래밍 평가에서 고부담 결정은 광범위한 샘플링, 맥락, 평가 방법 및 다양한 평가자에서 비롯된 풍부한 정보에 기반한 많은 데이터포인트에 기초한다(van der Vluten et al. 2012, 2015). 고부담이라는 특성과 그에 따르는 중대한 consequences를 고려할 때, 절차는 신뢰할 수 있고 신뢰할 수 있어야 한다. 절차적 척도procedural measures에는 다음이 포함된다. 

  • 서술적 표준, 루브릭 또는 이정표를 사용할 수 있도록 교육을 받은 전문가로 구성된 평가위원회의 구성
  • 결정에 대한 정당성 제공
  • 코치나 멘토, 학습자의 멤버체킹 절차
  • 항소appeal 절차서 사용

As embedded in principle 6/7, the high-stakes decision in programmatic assessment is based on many datapoints, on rich information originating from a broad sampling, across contexts, assessment methods, and diverse assessors (van der Vleuten et al. 2012, 2015). Given the high-stakes and prominent consequences, the procedures need to be trustworthy and credible. Procedural measures could include:

  • appointment of an assessment committee of experts that are trained and can use narrative standards, rubrics or milestones;
  • the provision of a justification for the decision;
  • member-checking procedures, of the coach/mentor and the learner;
  • instatement of appeal procedures.

판 데르 블뢰텐 등은 다음과 같이 표현했다. '절차적으로 합당한 프로세스를 이루는 요인이나, 전문적인 판단의 전문성에 기여하는 요인과 같기, [어떤 척도가 법정에서도 효력이 있을지를 생각해 보는 것]이 도움이 된다. 이러한 결정은 일반적으로 신뢰성이 있고 신뢰할 수 있는 강력한 결정으로 이어진다'(p. 643)(van der Vleuten et al. 2015).

As expressed by van der Vleuten et al.: ‘it is helpful to think of any measure that would stand up in court, such as factors that provide due process in procedures and expertise of the professional judgement. These usually lead to robust decisions that have credibility and can be trusted’ (p. 643) (van der Vleuten et al. 2015).

이 원칙에 대한 일반적인 합의가 있었고 목록을 완성한 15개 프로그램(표 4) 중 대다수가 이를 이행했지만, 일부에서는 이를 준수하기가 쉽지 않다고 인식하기도 했다. 준수하기 쉽지 않은 이유는 다음과 같았다.

  • 평가 절차 및 위원회에 필요한 자원 (부재)
  • 전문가 그룹 또는 위원회의 결정을 수용하기 위해 필요한 리더십 (부재)
  • 이러한 평가 절차의 집행을 가능하게 하는 기관 정책의 권한 (부재)

Although there was general agreement on this principle and majority of the 15 programmes that completed the inventory (Table 4) have implemented it as such, it was also perceived by some as not easy to adhere to, due to

  • the resources needed for these assessment procedures and/or committees,
  • required leadership for acceptance of decisions by an expert group or committee and
  • a mandate from institutional policies to enable enactment of these assessment procedures.

많은 프로그램에서 임상 역량 위원회 또는 독립 포트폴리오 위원회와 같은 전문가 그룹을 사용하고, 멤버체킹을 위해 멘토와 학습자의 관점을 반영하여 고위험 결정을 내렸다. 이 때 [그룹 의사결정의 원칙]이 강조되었다(Hauer 등 2016). 

  • 전체론적holistic 의사결정을 위해 aggregated data를 사용한다.
  • 정신 모델을 공유하는 것이 중요하다
  • 적절한 정보 공유 방법이 필요하다.


Many programmes used a group of experts to make the high-stakes decisions, e.g. clinical competency committees (Duitsman et al. 2019; Kinnear et al. 2018) or independent portfolio committees taking the view of mentor and learner into account with a member checking procedure (Driessen et al. 2012). The principles of group-decision making were emphasised, including

  • the use of aggregated data to make an holistic decision,
  • the importance of having a shared mental model and
  • a proper method for sharing information (Hauer et al. 2016).

또한 패널은 그룹 의사결정에서 발생할 수 있는 편향에도 주의를 기울여야 한다(Tweed and Wilkinson 2019). 위원회가 피드백 및 성과 데이터 축적에 대한 overview를 관리하고 유지하는 것을 지원하고, 의사결정에 필요한 정보제공을 지원하기 위해, [수행능력 데이터의 모자이크]를 사용하고 [베이지안 네트워크]를 사용하는 접근법이 제안되었다. 신뢰성과 투명성의 필요성은 프로그램 평가에만 국한된 것이 아니며, 모든 평가 절차와 형식은 이를 필요로 한다. 그러나 프로그래밍 방식 평가에서, [전통적인 grading rules이나 심리측정학이 의사결정 과정에 적용할 가능성이 낮다는 것]을 의미하는, [다양한 형식으로 제시된 집계 데이터를 기반으로 전체론적 의사결정이 이루어진다는 것]을 깨닫는 것이 중요하다.

In addition, the panel needs to be attuned to possible sources of bias associated with group decision making (Tweed and Wilkinson 2019). Approaches using mosaics of performance data and use of Bayesian networks have been proposed to support the committees in managing and maintaining overview of accumulating feedback and performance data, and informing the decision making (Pearce et al. 2021; Zoanetti and Pearce 2021). The need for credibility and transparency is not unique to programmatic assessment, all assessment procedures and formats need this. It is however important to realise that in programmatic assessment a holistic decision is made, based on aggregated data that is presented in a variety of formats, meaning traditional grading rules or psychometrics are unlikely to be as applicable in the decision process.

원칙 10: 학습자와 진행 상황을 논의하고 결정하기 위해 중간 검토가 이루어집니다.
Principle 10: intermediate review is made to discuss and decide with the learner on their progress

기간, 연도 또는 프로그램의 말기에 고부담 결정이 상당한 결과를 가져온다는 점을 감안할 때, (결과가) 학습자에게 예상치 못한 일로 다가오지 않아야 한다(van der Vleuten et al. 2015). 따라서 학습자는 잠재적 결정에 대한 중간 피드백을 받아야 하며, 필요한 경우 개선하도록 행동할 수 있어야 합니다. 또한 이 [중간 검토intermediate review]고부담 의사결정의 신뢰성을 보장하기 위한 중요한 절차적 조치로 볼 수 있다(원칙 9 참조). (van der Vleuten et al. 2015) [중간 검토]는 더 적은 데이터 포인트(비례성, 원리 6/7 참조)를 기반으로 하며, 학습자가 어떻게 하고 무엇을 할 수 있는지 '진단' 메시지를 제공하도록 설계되었습니다. [중간 검토]를 위해 학습자가 코치/멘토(원칙 11)의 지도를 받고 피드백 대화가 마련되어 있는지 확인하는 것이 중요하다. 피드백은 대화를 포함하는 순환 과정인 '루프'일 때 가장 효과적이라는 것은 잘 알려져 있다(Boud and Molloy 2012; Carless et al. 2011). 토론과 대화를 강조하고 학습자가 행동할 수 있는 능력을 강조한 것도 오타와 컨퍼런스에서 워크숍이 끝난 후 이 원칙을 되새겨야 하는 이유였다.
Given that the high-stakes decision at the end of a period, year or programme has substantial consequences, this must not come as a surprise for the learner (van der Vleuten et al. 2015). Therefore, it is imperative that the learner receives intermediate feedback on the potential decision and can act to improve if needed. This intermediate review can also be seen as an important procedural measure for ensuring the credibility of the high-stakes decision (see principle 9) (van der Vleuten et al. 2015). The intermediate review is based on fewer datapoints (proportionality, see principle 6/7) and is designed to give a ‘diagnostic’ message, how is the learner doing and what can be done. For this intermediate review, it is important that the learner is guided by a coach/mentor (principle 11), and that a feedback dialogue is in place. It is well known that feedback is most effective, when it is a ‘loop’, a cyclical process, involving a dialogue (Boud and Molloy 2012; Carless et al. 2011). The emphasis on the discussion and dialogue and the ability of the learner to act were also the rationales for the rephrasing of this principle after the workshop at the Ottawa conference.

합의가 이루어졌고 목록을 완성한 15개 프로그램(표 4) 대부분이 구현되었지만, 일부 프로그램의 경우 필수 자원과 커리큘럼 설계에 중간 순간을 명시적으로 통합해야 할 필요성 때문에 준수하기가 쉽지 않았다. 종종 중간 순간의 순간은 일정 기간이나 한 해의 중간 정도의 공식적인 순간으로 구현되거나 멘토 미팅의 과정의 일부로 통합되거나 감독자에 의해 수행된다. 중간 검토의 존재는 학습 촉진에 있어 프로그램이 학습자를 돌본다는 것을 의미하기도 했다. 피드백을 활용하는 학습자 스스로의 역할과 피드백의 후속 조치가 매우 중요하다고 보았다.
Although there was agreement and most of the 15 programmes that completed the inventory (Table 4) have implemented, for some it was less easy to adhere to, because of the necessary resources and the need to explicitly incorporate an intermediate moment in the design of the curriculum. Often the intermediate moment was implemented as a formal moment in time halfway through a period or year, integrated as part of the process of mentor meetings, or done by the supervisors. It was also indicated that the presence of an intermediate review signified that the programme takes care of the learner, in facilitating the learning. The role of the learners themselves in using the feedback, and follow-up of feedback was seen as very important.

원칙 11: 학습자는 모든 평가 데이터의 자체 분석을 사용하여 멘토/코치와 반복적인 학습 미팅을 갖습니다.
Principle 11: learners have recurrent learning meetings with (faculty) mentors/coaches using a self-analysis of all assessment data

위에서 설명한 것처럼(원칙 1/2/3 및 10), 피드백은 학습 및 전문성 개발을 위해 필수적입니다. 학습자에 의한 피드백의 사용은 종종 자기 분석이나 성찰에 있어 중요한 역할을 한다. 학습자는 성찰 활동을 체크박스 실습 이상으로 인식하지 않습니다. 하지만, 학습자들은 성찰의 가치를 멘토와의 대화에서 찾는다. 자기 주도성과 성찰에는 멘토나 코치의 디렉션과 가이드가 필요하다는 것은 잘 알려진 사실이다. 따라서 멘토에 의한 이 지침은 프로그램 평가에서 중요한 원칙이다(van der Vleuten et al. 2012, 2015).

As indicated above (principles 1/2/3 and 10), feedback is essential for learning and professional development. The use of that feedback by the learners is often scaffolded in self-analysis or reflection (Sargeant et al. 2009). Learners do not appreciate reflective activities as more than tick-box exercises (de la Croix and Veen 2018); however, they do see the value of reflection as part of a dialogue with a mentor (Driessen et al. 2012; Heeneman et al. 2015). It is well known that self-direction and reflection require direction and guidance by a mentor or coach (Knowles 1975; Pilling-Cormick 1997). Therefore, this guidance by a mentor is an important principle in programmatic assessment (van der Vleuten et al. 2012, 2015).

전반적인 합의가 이루어졌으며 목록을 완성한 15개 프로그램(표 4) 중 대다수는 이 원칙을 구현하였다. 리소스 부족과 (훈련된) 직원 부족이 이 원칙을 고수하기 쉽지 않은 요인이었습니다. 대부분의 프로그램은 전담 스태프 멘토/코치를 사용하거나 대학원 교육에서 프로그램 책임자가 참여했습니다. 프로그램의 규모도 중요했다. 학생의 규모는 큰데, 자원이 제한적일 경우, 멘토링 시스템이 없거나 연중 연락 횟수가 제한적일 수 있다. 
There was overall agreement and the majority of the 15 programmes that completed the inventory (Table 4) implemented this principle. Lack of resources and lack of (trained) staff were factors that made this principle less easy to adhere to. Most programmes used dedicated staff mentors/coaches, or in post-graduate training the programme director was involved. It was clear that the size of the programme also mattered; if many learners were present, and resources limited, the choice could be made to have no mentoring system or a limited number of contacts throughout the year.

 

원칙 12: 프로그램 평가는 개별 학습 우선순위를 지원하도록 맞춤화된 학습을 통해 학습자의 자기 학습에 대한 행위자성과 책임감을 점진적으로 증가시키는 것을 추구한다.
Principle 12: programmatic assessment seeks to gradually increase the learner’s agency and accountability for their own learning through the learning being tailored to support individual learning priorities

평가의 학습적 기능(원리 1/2/3)을 위해 평가와 피드백이 저부담으로 설계되고, 지속적인 정보 흐름이 자기조절 학습을 촉진한다. 자기 결정 이론과 자기 조절 학습과 같은 프레임워크는 학습자의 학습 동기와 기관의 중요성을 뒷받침한다. Schut 등은 프로그램 평가의 맥락에서, 스스로 통제하고 있다는 느낌이나 행위자성agency을 갖는 것이 평가 이해 관계에 대한 학습자의 인식에 필수적이라는 것을 확인했다(Shut 등 2018). 프로그램의 몇몇 feature는 학습자가 평가를 통제하고 저부담 평가로 인식할 수 있는지에 중요했다. 즉, 프로그램에서 학습자가 [스스로 평가를 시작하거나 진행 상황에 대한 증거를 선택할 수 있도록 허용할 때], sense of agency가 장려되었다.
For the learning function of assessment (principle 1/2/3), assessment and feedback are designed as low-stakes, and the continuous flow of information fosters self-regulated learning. Frameworks such as the self-determination theory and self-regulated learning indeed support the importance of learners’ motivation and agency for learning (Panadero 2017; Zimmerman 1989). Schut et al. identified that, in the context of programmatic assessment, the feeling of being in control, or agency, was essential for the learners’ perception of assessment stakes (Schut et al. 2018). Programme features were an important factor in whether learners were able to take control over the assessment and perceive it as low-stakes, i.e. a sense of agency was encouraged when the programme allowed the learner to initiate their own assessment or select the evidence for their progress (Schut et al. 2018).

이것은 가장 복잡한 원칙으로 인식되었고 메시지와 함축된 의미를 전달하기 위해 리퍼레이싱이 필요했다. 재정비 후, 원칙과 전반적인 합의가 이루어졌는데, 이를 준수하기가 쉽지 않았고, 재고를 완료한 일부 프로그램(표 4)에서 이행이 일부 이루어졌다. 잘하는 학습자와 어려움을 겪는 학습자 모두에게 agency과 accountability가 중요함이 강조되었다. 이는 어려움을 겪는 학습자에게 특히 더 힘든데, 왜냐하면 그러한 학생일수록 코치나 스텝이 개입하여 조치를 취할 가능성이 더 높고, 재교육 조치를 스텝이 통제하고 규제하기 때문이다. 그러나 프로그램 평가에서 학습에 초점을 맞춘 것은 [이미 잘 하고 있는 사람들]이 훨씬 더 잘 할 수 있도록 지원하고 격려하며, 궁극적으로 모든 의료 종사자들에게 평생 학습의 중요성을 강화한다.
This was perceived as the most complex principle and rephrasing was needed to convey the message and implications. After rephrasing there was overall agreement with the principle, although it was not easy to adhere to, and implementation was partial in some of the programmes that completed the inventory (Table 4). It was indicated that agency and accountability are important for all learners, both for those that do well and those that struggle. This is challenging as for the learners that struggle, coaches and staff are more likely to step in and take action (Heeneman and de Grave 2017), and remediation is controlled and regulated by staff (Ellaway et al. 2018). Yet the focus on learning in programmatic assessment suggests those already doing well are supported and encouraged to do even better, reinforcing the importance of lifelong learning for all health care practitioners.

표 2는 프로그램 평가의 최종 Ottawa 2020 합의 원칙을 제시한다. 표 2의 원칙은 평가 프로그램을 프로그래밍 방식으로 호출하기 위해 이행해야 하는 체크리스트의 항목으로 간주되지 않는다. 앞서 언급한 바와 같이, 원칙은 교육, 평가 및 조정에 대한 개념적 관점을 나타낸다. 프로그램 평가는 레시피가 아니며 다양한 표현을 할 수 있다. 그럼에도 불구하고 이러한 표현은 프로그램 평가가 교육 설계를 주도하고 그러한 맥락에서 평가의 학습과 의사결정 기능을 극대화하는 프로그램으로 간주될 수 있다. 

Table 2 presents the final Ottawa 2020 consensus principles of programmatic assessment. The principles in Table 2 are not be considered as items of a checklist that need to be fulfilled in order to call the programme of assessment, programmatic. As indicated earlier, the principles represent a conceptual view on education, assessment and its alignment. Programmatic assessment is not a recipe and may have many different manifestations. These manifestations may nevertheless be considered as programmes in which programmatic assessment is leading the educational design and maximises the learning and decision function of assessment in that context. 

 

향후 작업에 대한 권장 사항
Recommendations for future work

프로그래밍 평가 원칙에 대한 이 오타와 2020 합의문(파트 1)의 작업과 진행은 여러 가지 중요한 통찰력을 제공한다.

The work and proceedings for this Ottawa 2020 consensus statement (part 1) on the principles of programmatic assessment let to a number of important insights. 

첫째, 프로그래밍 평가 모델에서 중요한 측면은 원칙의 연계이다. 예를 들어 중간 진척도 회의(원칙 10)를 위해서는, 멘토의 지도가 필요하다(원칙 11). [원칙이 서로 의존한다는 사실]은 커리큘럼의 평가와 교육 설계의 중심으로서 프로그램 평가를 선택할 때 고려해야 할 중요한 사항이다. 중요한 질문은 일정한 원칙이 있는지, 또는 평가의 학습과 의사결정 기능에 원하는 영향을 미치기 위해 설계에 필요한 구체적인 원칙이 있는지 여부이다. 다시 말해, 어떤 원칙의 부재가 시스템을 프로그래밍 방식이라고 부를 수 없게 만드는가? 프로그래밍 방식이 실현되기 전에 적용해야 할 특정 수의 원칙이 있는가?

First, a significant aspect in the programmatic assessment model is the interlinking of certain principles, e.g. for the intermediate progress meeting (principle 10), guidance by a mentor is needed (principle 11). The finding that the principles depend on each other in practice, is important to take into account in the choice for programmatic assessment as central to the assessment and educational design of a curriculum. An important question is whether there are a certain number of principles, or whether there are specific principles that are needed in the design to lead to the desired impact on the learning and decision function of assessment. In other words, are there principles without which a system could not be called programmatic and/or are there a certain number of principles that need to be applied, before a programmatic approach is realised?

여기서 여러 맥락에 걸친 다른 교육 형식의 구현과 비교하는 것은 유용할 수 있다(예: 문제 기반 학습(PBL)). PBL은 원래 의도한 모델에 대한 타협으로 인해 많은 표현 또는 하이브리드 접근법을 가질 수 있다. 연구에 따르면 PBL의 성과에 대해서는 혼재hybrid 되어있다. 마찬가지로 프로그램적 평가에서 특정 원칙을 부분적으로만 구현하면 원치 않는 부작용을 초래할 수 있다. 예를 들어, 학습자가 저부담 평가를 인식하지 못하는 것이다. 중요한 질문은 최적의 구현을 하지 못해서 결과가 하이브리드였는지, 아니면 특정 원칙이 부분적으로만 구현되었는지 여부이다. 

Here, the comparison to the implementation of other educational formats across contexts may be useful, e.g. problem-based learning (PBL). PBL can have many manifestations or hybrid approaches, as a result of compromises on the original intended model. Studies have shown that the outcome of PBL may then give a ‘hybrid’ success (Frambach et al. 2012), and also in programmatic assessment, the partial implementation of certain principles may give unwanted side effects, e.g. low-stakes assessment that is not perceived as such by the learners (Bok et al. 2013; Heeneman et al. 2015; Schut et al. 2018). An important question is whether the implementation itself was not optimal and therefore led to a hybrid outcome, or was a certain principle only partially implemented, e.g. a number of assessments are present that yield individual summative decisions, and that led to the hybrid outcome.

그러나 프로그램 평가가 커리큘럼의 평가와 교육 설계에 중심인 경우, [학습 기능(즉, 원칙 1/2/3/11/12)]과 [평가의 의사결정 기능(즉, 원칙 7/8/9/10)] 모두에 관련된 원칙이 존재해야 한다는 것이 프로그래밍 평가의 핵심 특징으로 강조되고 고려된다. 이 합의문에 기여한 전문가들이 속한 프로그램마다 실무에서는 프로그래밍 평가가 서로 다른 방식으로 구현되었으며, 혁신이 다양성에서 발생할 수 있음을 고려하면, 더 장려되어야 한다.

It is however emphasised and considered as a key feature of programmatic assessment that principles pertaining to both the learning function (i.e. principle 1/2/3/11/12) and the decision function of assessment (i.e. principle 7/8/9/10) should be present if programmatic assessment is central to the assessment and educational design of a curriculum. Different manifestations of programmatic assessment were seen in the actual practices of the experts’ programmes that contributed to this consensus statement, and this should be encouraged as innovation can arise from diversity.

둘째, 부담의 연속체 원칙(원리 6/7)과 학습자 행위자성(원리 12)은 중요성과 고수성adherence 측면에서 가장 다양한 응답이 얻어졌다(표 4). 실제로 [부담의 연속체]는 프로그램적 평가 모델의 중요한 이론적 토대이지만, 이와 같은 연속체라는 차원을 파악하고 고수하는 것은 어렵다고 여겨졌다. 예:

  • 저부담 평가는 언제 '진정한' 저부담 평가인가?
  • 의도된 학습 성과 수준에서 의미 있고 신뢰할 수 있는 고부담 결정을 어떻게 내려야 하는가?
  • (부담의) 전체 연속체를 어떻게 도입할 수 있을까?

Second, the principles on the continuum of stakes (principle 6/7) and learner agency (principle 12) gave the most varied responses in terms of importance and adherence (Table 4). Indeed the continuum of stakes is an important theoretical foundation of the programmatic assessment model, but the dimensions of this continuum were considered difficult to grasp and adhere to. For example:

  • When is a low-stakes assessment ‘truly’ low-stakes?
  • How should we come to a meaningful and reliable high-stakes decision at the level of the intended learning outcomes?
  • And how can the full continuum be employed?

원칙 12와 관련하여, 학습자의 행위자성은 중요하지만 달성하기 어려운 것으로 인식되었다. 이를 위해서는 커리큘럼과 평가 설계의 변경이 필요하며, 정렬이 더욱 중요할 것임이 분명했다(Kulasegaram et al. 2018). 와틀링 등이 보여주듯 '행위자성은 (힘든) 일'이라는 점에서, 학습자는 사회적·전문적 기대에 저항해야 할 수 있으며, 지원/코칭은 성과가 있고 필요한 것으로 판단되었다(원칙 11).

  • [기관 수준에서의 정책]과 [인증 기관]이 긴장을 유발할 수도 있다. 왜냐하면 [프로그램의 의도된 학습 성과를 달성하고 보호해야 할 필요성]과 [([학습의 자기 조절와 자기 결정의 극대화]를 위한) 학습자가 원하는 자율성 또는 행위자성] 중 어느 한 쪽이 강조되기 때문이다. 
  • 게다가, 선생님들의 역할이 중요한 것으로 나타났다: 교사들이 accounting와 control에 더 집중하는 것도 긴장을 유발할 수 있다. 교사는 학습자를 통제하는 것과 학습자의 행위자성을 허가하는 것 사이에서 어려움을 겪을 수 있다(Shut et al. 2020). 

Regarding principle 12, leaner agency was perceived as important but also difficult to achieve. It was clear that this would need a change in both the curriculum and assessment design and even more important the alignment (Kulasegaram et al. 2018). As shown by Watling et al., ‘agency is (hard) work’, learners may need to resist social and professional expectations, and support/coaching was deemed as fruitful and needed (principle 11) (Watling et al. 2021).

  • Institutional policies and accreditation bodies can create tensions by emphasising the need to attain and safeguard the intended learning outcomes of a programme versus the desired autonomy or agency of the learner to maximise self-regulation and self-determination of learning.
  • In addition, the teachers’ role was shown to be important: when teachers are more focused on the conception of accounting and control, this could lead to tensions. Teachers may struggle between being in control and permitting learner agency (Schut et al. 2020). 

셋째, 맥락이 프로그램 평가의 구현과 잠재적 결과에 매우 중요한 영향을 미친다는 것은 분명하다. 이 합의문의 전문가들은 유럽, 북미, 오스트랄라시아 지역에 근거지를 두고 있었다는 점을 주목해야 한다. 문화적 측면이 평가 신념과 제도에 영향을 미친다는 것은 잘 알려져 있다. 다른 지역의 평가 관행을 바꿔야 한다는 요구(Khan 2018)가 있으며, 다른 지역이나 문화에서의 프로그램 평가에 대한 더 많은 연구가 적극 권장된다.

Third, it is clear that the context is a very significant influence on the implementation and the potential outcomes of programmatic assessment. It is important to note that the experts of this consensus statement were based in European, North-American, and Australasia regions. It is well known that cultural aspects influence assessment beliefs and systems (Wong 2011). Calls for a change of assessment practices in other regions are made (Khan 2018) and more studies on programmatic assessment in other regions or cultures are highly recommended.

결론들
Conclusions

전문가들과 그들의 프로그램들 사이의 목록은 비록 다양한 접근법과 엄격함에도 불구하고 이러한 원칙들이 사용되고 구현되었음을 보여주었고, 이는 프로그램 평가가 구현 가능한 현실적인 평가 모델임을 시사한다. Variability는 프로그램 규모, 제도 장벽, 법률 제한, 가용 자원, 평가 문해 수준 및 변화에 대한 기본 태도와 같은 다양한 맥락적 요소와 관련이 있었다. 다양한 맥락에서 프로그램 평가가 어떻게 운영되고 있는지에 대한 지식을 공유하면 교육자가 프로그램에서 프로그램 평가의 구현 여정에 대한 현재 또는 미래의 계획을 나타내는 데 도움이 될 수 있다. 

An inventory amongst experts and their programmes showed that these principles were used and implemented, albeit with a range of approaches and rigor, suggesting that programmatic assessment is a realistic assessment model that can be implemented. The variability was related to various context factors such as programme size, institutional barriers, legislation restrictions, available resources, level of assessment literacy and underlying attitudes to change. Sharing knowledge of how programmatic assessment is being operationalised in different contexts may help educators in signifying their current or future plans for the implementation journey of programmatic assessment in their programmes. 

 

 


Med Teach. 2021 Oct;43(10):1139-1148.

 doi: 10.1080/0142159X.2021.1957088. Epub 2021 Aug 3.

Ottawa 2020 consensus statement for programmatic assessment - 1. Agreement on the principles

Affiliations collapse

Affiliations

1Department of Pathology, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

2Department of Population Health Sciences, Faculty of Veterinary Medicine, Utrecht University, Utrecht, The Netherlands.

3School of Dentistry, University of Liverpool, Liverpool, UK.

4Education Unit, University of Otago, Christchurch, New Zealand.

5Department of Medical Education, Melbourne Medical School, University of Melbourne, Melbourne, Australia.

6MD Program, Department of Psychiatry, and The Wilson Centre, University of Toronto, Toronto, Canada.

7College of Medicine and Health, University of Exeter Medical School, Exeter, UK.

8Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, MD, USA.

9Department of Educational Development and Research, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

PMID: 34344274

DOI: 10.1080/0142159X.2021.1957088

Abstract

Introduction: In the Ottawa 2018 Consensus framework for good assessment, a set of criteria was presented for systems of assessment. Currently, programmatic assessment is being established in an increasing number of programmes. In this Ottawa 2020 consensus statement for programmatic assessment insights from practice and research are used to define the principles of programmatic assessment.

Methods: For fifteen programmes in health professions education affiliated with members of an expert group (n = 20), an inventory was completed for the perceived components, rationale, and importance of a programmatic assessment design. Input from attendees of a programmatic assessment workshop and symposium at the 2020 Ottawa conference was included. The outcome is discussed in concurrence with current theory and research.

Results and discussion: Twelve principles are presented that are considered as important and recognisable facets of programmatic assessment. Overall these principles were used in the curriculum and assessment design, albeit with a range of approaches and rigor, suggesting that programmatic assessment is an achievable education and assessment model, embedded both in practice and research. Knowledge on and sharing how programmatic assessment is being operationalized may help support educators charting their own implementation journey of programmatic assessment in their respective programmes.

Keywords: Programmatic assessment; curriculum; decision-making; feedback; learners; teachers.

평가 프로그램의 철학적 역사: 변화해온 윤곽의 추적(Adv Health Sci Educ Theory Pract. 2021)
A philosophical history of programmatic assessment: tracing shifting configurations
J. Pearce1 · W. Tavares2

 

소개: 왜 철학적 역사인가?
Introduction: why a philosophical history?


HPE에서는 프로그램 평가가 보편화되었다. 이 주제에 대한 학술 문헌이 풍부하고 의과대학과 전문 훈련대학은 점점 더 프로그래밍식 평가를 전면적으로 시행하거나 접근법의 측면을 평가 프레임워크에 통합하고 있다. 프로그래밍 접근방식은 [평가 증거를 결합하여 프로그램 수준에서 평가를 최적화]한다. 개별 평가에서 합격/불합격 결정을 제거하고(데이터포인트로 처리), 학습자가 다양한 방법으로 평가(및 지속적인 피드백 제공)를 받을 수 있도록 보장하며, 축적된 증거를 검토하는 즉시 전문 심사위원이 역량에 대한 높은 결정을 내려야 한다. 그러나, 분명해지겠지만, 이것은 상황을 설정하기 위한 프로그램 평가의 작업 정의일 뿐입니다. 우리는 프로그램 평가가 유동적인 개념이며, 프로그램 평가를 구성하는 것이 시간이 지남에 따라 변화했다고 주장한다.
Programmatic assessment has become ubiquitous in health professions education. The academic literature on the topic is abundant, and medical schools and specialist training colleges are increasingly implementing programmatic assessment in full, or incorporating aspects of the approach into their assessment frameworks. A programmatic approach in health professions education optimises assessment at a programme level by combining assessment evidence. It removes pass/fail decisions from individual assessments (treated as datapoints), ensures that learners are assessed (and given constant feedback) with a variety of methods over time, and requires high-stakes decisions regarding competence to be made by expert judges upon reviewing accumulated evidence. However, as will become clear, this is merely a working definition of programmatic assessment in order to set the scene. We argue that programmatic assessment is a fluid concept, and what constitutes programmatic assessment has changed over time.

지지자들은 초기 형태의 심리 측정 테스트에서 나온 프로그램 평가의 출현에 대한 서술적 이야기를 되짚고, 그것이 해결한 문제와 긴장을 개략적으로 설명한다(슈비르트 & 반 데르 블뢰텐, 2019). 의학 교육 교과서에는 이제 프로그래밍 평가에 관한 장이 수록되어 있다(Van der Vluten 등, 2017, 2020). 2020년 오타와 회의는 이 주제에 대한 첫 번째 '합의문'을 준비했다. 간단히 말해서, 우리는 [거의 의심받지 않는 프로그램적 접근법]으로 구성된 의학 교육의 평가의 시대로 들어섰다. 프로그램적이지 않은 평가에 대한 접근은 어떤 의미에서는 가식적이 되었다. 프로그래밍식 평가는 확고히 자리잡은 발상이 되었고, 이제는 평가 관행을 규제하고 있다. 이를 통해 그것이 언제 처음 나타났는지, 어떻게 우리가 오늘날 알고 있는 형태로 진화했는지 성찰할 수 있다.
Proponents recount narrative stories about the emergence of programmatic assessment from earlier forms of psychometric testing, and outline problems and tensions it has solved (Schuwirth & van der Vleuten, 2019). Medical education textbooks now feature chapters on programmatic assessment (Van der Vleuten et al., 2017, 2020). The 2020 Ottawa Conference prepared its first ‘consensus statement’ on the topic. In short, we have entered an era of assessment in medical education constituted by an almost unquestioned programmatic approach. Approaches to assessment that are not programmatic have become, in a sense, tendentious. Programmatic assessment has become an entrenched idea, now regulating assessment practice. This allows us to reflectively ask when it first emerged and how it evolved into the form we know today.

연구의 목적 및 구조
Purpose and structure of the study

본 논문은 이러한 문제가 다른 곳에서 다루어지기 때문에 프로그램 원칙이나 운영 접근법에 관여하는 것에서 한 발 물러섰다(Van der Vleuten et al., 2015, 2017; Wilkinson & Tweed, 2018). 대신, 우리는 메타 철학 및 역사학적 관점에서 프로그램 평가를 검토하기로 선택한다. 우리는 프로그램 평가 역사에서 상대적으로 구별되는 세 가지 단계를 식별하였다. 

  • 출현
  • 진화
  • 고착

This paper takes a step back from engaging with programmatic principles or operational approaches, as these issues are dealt with elsewhere (Van der Vleuten et al., 2015, 2017; Wilkinson & Tweed, 2018). Instead, we choose to review programmatic assessment from a meta-philosophical and historiographical perspective. We identify three relatively distinctive phases in the history of the programmatic assessment:

  • emergence,
  • evolution and
  • entrenchment.

우리는 시기phase 사이에 일어나는 것처럼 보이는 철학적 변화를 끌어내고 궤도의 변화를 이끄는 것처럼 보이는 순간에 철학적 이슈를 검토한다. 여기서, 우리는 아이디어 자체의 [비-목적론적non-teleological 변화], 즉 어떻게 그것이 필요한 엔드포인트나 목표 없이 유기적으로 진화했는지를 언급할 것이다
We draw out the philosophical shifts that seem to be occurring between phases, and also examine philosophical issues at moments that appear to be driving shifts in the trajectory. Here, we are referring to non-teleological changes in the idea itself—how it evolved organically without a necessary endpoint or goal. 

연구의 관련성
Relevance of the study

평가에 대한 방법론적 접근법이 문헌에서 일상적으로 논의되고 있지만, 평가를 형성하는 철학적 가정과 책임에는 덜 주의를 기울였다. [철학적 입장이 암묵적일 때], 뒤따르는 토론은 방법론적인 것에 집중된다. [철학적 위치]가 단순히 [데이터를 생성하는 데 사용되는 방법]을 넘어서, [평가에 대한 이해를 형성]하는 데 갖는 역할을 고려할 때(Tavares 등, 2019) 프로그램 평가와 그 내역에 대한 철학적 조사는 시기적절하다. 프로그램 평가의 역사적 궤적을 추적하면서, 우리는 그 안에서 변화하는 암묵적인 철학적 위치를 끌어낼 것이다. 

Although methodological approaches to assessment are routinely discussed in the literature, less attention has been given to the philosophical assumptions and commitments that shape assessments. When philosophical positions remain implicit, methodologically focused debates ensue. Given the role philosophical positions have in shaping an understanding of assessment beyond what methods are used to generate data (Tavares et al., 2019), a philosophical probing of programmatic assessment and its history is timely. In tracing the historical trajectory of programmatic assessment, we draw out the shifting, implicit philosophical positions within it. 

접근법의 기초 및 정당성
Basis and justification of the approach

다양한 관점(예: 지적, 사회, 문화, 경제, 정치)의 프로그래밍 평가의 완전하고 세분화된 역사는 가치가 있지만, 우리는 다른 역사적 관점에서 진행하기를 바란다. 라스무센은 과학의 역사에서 [전통적인 접근법]이 전형적으로 [이론의 발전]을 추적해왔다고 지적한다. 즉, (발명과 발견과 같은) 진보적인 해결책과 (이론과 모델과 같은) 학문 내의 질문에 대한 답에 초점을 맞추고 있다고 언급했다. 

Although a complete and fine-grained history of programmatic assessment from multiple perspectives (e.g., intellectual, social, cultural, economic, political) would be valuable, we wish to proceed from a different historiographical perspective. Rasmussen notes that traditional approaches in the history of science have typically traced the development of theories, focussing on progressive solutions (such as inventions and discoveries) and answers (such as theories and models) to questions within a discipline (Rasmussen, 1997).

자딘(Jardine)은 과학 분야의 역사에 접근하는 [대안적인 방법론]을 제시한다. 즉, [변화하는 질문, 문제, 실천 및 전제를 추적]하는 것에 초점을 맞추는 것이다(Jardine, 2000). 자딘의 질문의 목적은 변화하는 '조사의 장'이다.

  • 연구자들은 어떤 질문을 하고 있는가?
  • 그들이 걱정하는 문제들은 무엇인가?
  • 이러한 문제를 해결하기 위해 그들은 어떤 관행, 방법, 기술을 사용하는가?
  • 어떤 근본적인 철학적 전제가 조사를 인도하는가?

Jardine offers an alternative methodology for approaching the history of scientific disciplines, which instead focuses on tracing the shifting questions, problems, practices and presuppositions of inquirers (Jardine, 2000). Jardine’s object of interrogation is the shifting ‘scene of inquiry’—

  • what questions are being asked by inquirers?
  • What are the problems that concern them?
  • What practices, methods and techniques do they draw upon to solve these problems?
  • What underlying philosophical presuppositions guide inquiry?

이러한 미묘함은 시간이 지남에 따라 사라지거나, 잘못 해석되거나 의도하지 않은 방식으로 옮겨질 수 있습니다. 그럼에도 불구하고 이러한 미묘함들은 정확히 우리가 이 프로그램 평가의 역사에서 분석하게 될 것이다.

These subtleties can get lost over time, misinterpreted or taken up in unintended ways. And yet these subtleties are precisely what we will be analysing in this history of programmatic assessment.

자딘의 방법론에 따라, 우리는 메타 철학 렌즈를 통한 프로그램 평가에 대한 역사적 연구를 수행하는 과정에서, 연구자inquirer의 질문, 문제, 실천 및 철학적 전제에 초점을 맞춘다. 이 방법론적 접근은 [역사적 인식론]이라는 지적인 전통 정신을 이용한다. [역사적 인식론]은 "사물이 지식의 대상으로 만들어지는 역사적 조건과 수단"에 대한 연구이다. 근본적으로 역사적 인식론은 과학이 철학적으로 무엇인지 이해하기 위해서는 우선 비판적인 관점에서 그것의 역사를 연구해야 한다고 가정한다. 여기에는 역사적 궤적에서 철학적 조건과 자극을 이해하는 것이 포함된다(Tavares 등, 2019).

Following the methodology of Jardine, we conduct a historiographical study of programmatic assessment through a meta-philosophical lens, focussing on questions, problems, practices and philosophical presuppositions of inquirers. This methodological approach draws on the spirit of the intellectual tradition of historical epistemology. Historical epistemology is an investigation into “the historical conditions under which, and the means with which, things are made into objects of knowledge” (Rheinberger, 2010, p. 2). Fundamentally, historical epistemology posits that in order to understand what science is philosophically, we must first study its history from a critical perspective. This includes understanding the philosophical conditions and stimuli in a historical trajectory (Tavares et al., 2019).

이 접근법은, 관점주의perspectivism에 기반을 두고 있으며, [불변하거나, 시대를 초월하거나, 객관적이거나, 절대적인 형태의 합리성]을 갖춘 주장은 없다고 주장한다. 과학(그리고 과학적 탐구)은 역사적 우발성historical contingencies으로 인해 시간이 지남에 따라 단편화된다. 과학적 실천의 규범과 지식의 내용은 [특정한 철학적 우선순위]로 인해 발생하는 길고 때로는 꼬여있는 역사에 의존한다. 우리는 이러한 개념을 평가와 관련하여 유동적이고 문화적인 탐구 관행을 강조하면서 프로그램적 평가에 활용합니다.

Such an approach, grounded in perspectivism (Pearce, 2013), argues that there is no claim to unchanging, timeless, objective or absolute forms of rationality. The sciences (and scientific inquiry) become fragmented over time due to historical contingencies. The norms of scientific practice and the content of knowledge are dependent on long and sometimes convoluted histories, which arise due to specific philosophical priorities. We utilise these conceptions for programmatic assessment, underscoring the fluid, cultural practice of inquiry in relation to assessment.

현대 우주론(J. 피어스, 2017), 유기화학(Klein, 2003), 전자현미경(Rasmussen, 1997), 확률(Hacking, 1975)을 포함한 과학적 연구의 많은 측면들이 이러한 관점에서 연구되어 왔다. 간단한 예로, 암흑물질의 개념의 출현은 현재 확고하게 자리 잡고 있는 물리학 현상으로, 복잡한 궤적을 가지고 있다. 1930년대에 은하 회전곡선의 질량 불일치 문제를 해결하기 위해 제안되었지만, 1970년대까지만 해도 이 '누락missing 물질' 문제는 더 넓은 물리학계에서 문제가 되지 않았다(de Swart 등, 2017). 우주론 연구의 연구, 입자물리학과 우주론의 융합, 그리고 심지어 천문학에 대한 투자 증가와 같은 사회적, 경제적 요인에 의해 이 아이디어가 더욱 확고해졌다.
Many aspects of the history of scientific inquiry have been probed from this perspective, including modern cosmology (J. Pearce, 2017), organic chemistry (Klein, 2003), the electron microscope (Rasmussen, 1997) and probability (Hacking, 1975). By way of a brief example, the emergence of the concept of dark matter, now a firmly entrenched physics phenomenon, took a convoluted trajectory. It was proposed in the 1930s to solve a mass discrepancy problem in galaxy rotation curves, but this ‘missing matter’ problem was not seen as problematic by the wider physics community until the 1970s (de Swart et al., 2017). The entrenchment of the idea was driven more by lines of inquiry in cosmological research, the fusion of particle physics and cosmology, and even social and economic factors such as increased investment in astronomy.

우리는 [메타 철학적 렌즈]를 통해 역사를 면밀히 조사하는 과정에서, [우리 자신의 관점]에서 프로그래밍 평가의 역사에 관여engage한다. 우리는 이 논문에서 [처방적prescriptive]이 아니라, 전적으로 [서술적descriptive]이고자 함을 강조한다. 그리고 어떤 경우에는, 철학적 입장이 항상 명시적이지 않기 때문에, 우리는 우리 자신의 추론에 의존해야 합니다. 그러므로 우리는 이 철학사에서 '왜'가 아닌 '무엇'과 '어떻게'만 다루고 있다. 
We engage with the history of programmatic assessment from our own perspective, carefully investigating the history through a meta-philosophical lens. We must stress that we are being entirely descriptive in this paper, not prescriptive. And in some cases, we must rely on our own inferences, as philosophical positions are not always explicit. Thus, we are only dealing with the ‘what’ and the ‘how’ in this philosophical history, rather than the ‘why’.

우리의 설명은 완전한 역사이거나 객관적인 서술recount를 의미하지 않는다. 둘 다 역사적 인식론의 정신에 반할 것이다. 우리는 또한 특정 검색 프로토콜로 체계적인 검토를 수행하지 않는다. 주로 평가 문헌이 철학적으로 구성되어 있지 않고, 조사 장면에서 변화하는 구성을 도출하는 데 프로그래밍 평가와 관련된 모든 문헌이 관련이 없기 때문이다. 대신, 우리는 다양한 출처에서 정보를 제공하는 서술적 접근법을 사용했다.

our account is neither meant to be a complete history, nor an objective recount; both of which would go against the spirit of historical epistemology. We are also not conducting a systematic review with specific search protocols—mainly because assessment literature is not philosophically organized, nor is all literature related to programmatic assessment relevant in drawing out shifting configurations in the scene of inquiry. Instead, we used a narrative approach informed by a variety of sources.

Lingard의 말에 따르면, 우리는 "프로그램적 평가를 뒷받침하는 동기"를 발굴할 필요가 있습니다(Lingard, 2009, 페이지 627). 우리는 역사 속 핵심 주체들이 쓰고, 말하고, 행동하는 것에 집중함으로써 이것을 한다.

  • 우리의 주요 출처는 의학 교육 저널의 일차 문헌이 될 것이다. 이러한 출처는 평가 학자와 실무자가 만든 질문의 종류, 문제 및 제안된 해결책을 상세히 기술하는 조사 현장의 중요한 기록이다(Jardine, 2000).
  • 2차 자료(접근법의 지지자들에 의한 성찰적 작업 등) 또한 그들의 전제, 동기 요소, 그리고 그들이 일하고 있던 문화적 맥락을 강조하는 데 도움이 될 것이다.
  • 관련성이 있는 경우, 우리는 또한 평가에 대한 새롭고 새로운 접근법에 대한 중요한 기록을 제공하기 때문에 컨퍼런스 프레젠테이션과 진행의 예를 도출할 것이다.
  • 마찬가지로, 우리는 때때로 교과서와 교육 자원을 언급할 것이다. 이러한 객체들이 반복적으로 학문을 만들고 그 후에 분야를 통합할 것이다(Badino & Navarro, 2013; Kragh, 2013).
  • 마지막으로, 웹사이트나 온라인 강의와 같은 더 인기 있는 자료들은 장면의 구성에 대한 중요한 지표이기 때문에 언급될 것이다.

In the words of Lingard, we need to excavate “the motivations that underpin” programmatic assessment (Lingard, 2009, p. 627). We do this by focussing on what key players in the history write, say, and do.

  • Our main sources will be primary literature in medical education journals. These sources are important records of a scene of inquiry (Jardine, 2000) as they detail the kinds of questions, problems and proposed solutions made by assessment scholars and practitioners.
  • Secondary sources, such as reflective works by proponents of the approach, will also be helpful in highlighting their presuppositions, motivational factors, and the cultural contexts in which they were working.
  • Where relevant, we will also draw on examples of conference presentations and proceedings as these provide an important record of new and emergent approaches to assessment.
  • Similarly, we will at times mention textbooks and educational resources as these objects iteratively create and subsequently consolidate a discipline (Badino & Navarro, 2013; Kragh, 2013).
  • Finally, more popular material, such as websites and online lectures will also be mentioned as they are an important indicator of the configurations of a scene.

 

출현: 후기 실증주의적 관점으로 전환하여 실증주의적 '터모일' 극복(2005년 이전)
Emergence: overcoming positivist ‘turmoil’ by shifting to a post-positivist perspective (pre-2005)

씬(scene) 구성
Configurations of the scene

이 이야기의 선구자는 측정 접근법에 관한 개념적 프레임워크에서 평가에 이르는 20세기 중반으로 거슬러 올라갈 수 있지만, 우리는 이 역사에 대한 질문을 거의 틀림없이 프로그램 평가 아이디어의 첫 출현으로 제한하기로 결정했다. 2016년, 씨스 판 데르 블뢰텐은 1996년 그의 논문이 프로그램적 사고의 첫 출현이라고 밝혔다. 그러나 이러한 아이디어 중 일부는 두 개의 이전 논문에서 선행되었다는 점에 주목한다(Norman 등, 1991년; Van der Blouten 등, 1991년). 1996년, 그는 조사 현장의 현주소를 다음과 같이 기술하며 시작한다.
Although the precursors to this story can be traced back to the mid-20th Century—stemming from conceptual frameworks concerning measurement approaches to assessment—we choose to limit our interrogation of this history to what is arguably the first emergence of the idea of programmatic assessment. In 2016, Cees van der Vleuten identifies his 1996 paper as the first emergence of programmatic thinking (Van der Vleuten, 2016). However, we note that some of these ideas were foreshadowed in two earlier papers (Norman et al., 1991; Van der Vleuten et al., 1991). In 1996, he begins by describing the current state of the scene of inquiry:

교육 성취도 시험은 보건과학에서 혼란스러운 분야이다.
시험은 많은 교사, 교육과정 설계자, 교육자들에게 지속적인 문제의 원천이다.
학생 성취도에 대한 평가는 교육 회의, 회의, 워크숍에서 지속적으로 논의되고 있다.
전통과 개인적 가치관, 경험이 토론을 좌우하는 영역이다.
반면에 지난 10년 동안 평가 대상 과학 출판물의 수는 폭발적으로 증가했다.
제안된 도구의 수는, 각각 흥미로운 두문자어를 사용하는 것을 선호하며, 셀 수 없이 많다.
(Van der Bluten, 1996, 페이지 41)
Educational achievement testing is an area of turmoil in the health sciences. Examinations are a constant source of problems for many teachers, curriculum designers and educationalists. The evaluation of student achievement is continually debated at educational meetings, conferences and workshops. It is an area in which tradition, personal values, and experiences tend to dominate discussions. On the other hand, the number of scientific publications on assessment over the last decade has exploded. The number of proposed instruments, each preferably using an intriguing acronym, is countless. (Van der Vleuten, 1996, p. 41)

 

위 논문에서는 평가를 [최적화 문제]로 제시한다. 평가 방법마다 장단점이 있다. 효용 공식이 제시(그리고 종종 인용)되는데, 여기서 모든 평가 방법의 효용은 신뢰성, 유효성, 교육적 영향, 수용성 및 비용의 산물이다. 주된 주장은 단일 평가 방법이 모든 품질 기준에서 완벽할 수는 없다는 것이다. 각 평가 순간에는 타협compromise이 필요합니다. 트레이드오프는 불가피하며, 결정은 상황별 요인에 의해 영향을 받습니다.
The paper goes on to present assessment as an optimisation problem. Each assessment method has its own strengths and weaknesses. A utility formula is presented (and often cited), whereby the utility of any assessment method is a product of its reliability, validity, educational impact, acceptability and costs. The main argument is that no one single assessment method will be perfect on all quality criteria. Each assessment moment requires a compromise—trade-offs are inevitable, and decisions will be influenced by contextual factors.

"turmoil"이라는 단어의 사용은 실무자들과 이론가들 사이의 혼란스러운 장면을 스케치합니다. 의료 교육자들은 [타당성validity과 실제성authenticity을 희생하지 않고] [신뢰성reliability을 높일 수 있는 최상의 평가 방법]을 찾기 위해 고군분투하고 있었다. 끊임없이 확대되는 [평가 툴킷]을 기반으로 하는 [테스트의 시대]였다. 이 시대에는 다양한 문제들이 있었다.

  • 맥락 특이성,
  • 객관성에 대한 도전,
  • 일부 형태의 평가에서 제한된 데이터에 대한 우려
  • 가짜 데이터(예: 시험 점수의 위양성) 및
  • [임상 역량의 복잡성]과 [특성의 조합] 사이의 긴장에 관한 우려

The use of the word “turmoil” sketches a scene of confusion amongst practitioners and theorists alike. Medical educators were struggling to find the best assessment methods that would enhance reliability without sacrificing validity and authenticity. It was an era of testing, based in an ever-expanding toolkit of assessments. There were problems such as

  • context specificity,
  • challenges to objectivity,
  • concerns about limited data from some forms of assessment,
  • spurious data (such as false-positives in test scores), and
  • concerns relating to the combination of traits in tension with the complex nature of clinical competence.

이러한 문제들은 심리학자들의 문제였고, 과학적 연구의 언어로, 이 문제들은 실증주의적 원리에 기초했다. 그러나 이러한 문제들을 해결하지 못하자 새로운 접근을 위한 준비로 떠들썩한 탐구 장면이 연출되었다.

These problems were those of psychometricians, and in the language of scientific inquiry, these problems were based on positivist principles. But the failure to solve these problems resulted in a tumultuous scene of inquiry that was primed for a novel approach.

우리는 Cees van der Vleuten과 Lambert Schwirth의 2005년 논문 '전문적 역량 평가: 방법에서 프로그램까지'를 프로그래밍 평가의 출현의 결정적 순간으로 식별한다(Van der Vleuten & Schwirth, 2005). 우리가 글을 쓸 당시, 그 논문은 1237번 인용되었다. 2016년 판 데르 블뢰텐은 이 논문이 그의 평가에 대한 생각에서 획기적인 사건이라고 언급했다(Van der Blouten, 2016). 저자들의 목표는 [평가를 "측정 문제"로 취급하는 것]으로 보는 초점을 바꾸는 것이다. 그들은 "프로그램적 교육 설계"에 대해 이야기하며 "평가는 프로그램적 접근이 필요한 교육적 설계 문제"라고 주장한다. 1996년 논문에서 확인된 평가의 다양한 측면을 논의하는 효용 모델로 시작한다. 그런 다음 그들은 "개별 방법을 평가하는 것이 아니라 전체적으로 평가 프로그램의 유용성에 대한 증거를 제공해야 한다"는 설득력 있는 제안을 제시한다(Van der Bluten & Schwirth, 2005, 페이지 309).

We identify Cees van der Vleuten and Lambert Schuwirth’s 2005 paper ‘Assessing professional competence: from methods to programmes’ as a signature moment in the emergence of programmatic assessment (Van der Vleuten & Schuwirth, 2005). At our time of writing, the paper has been cited 1237 times. In 2016, van der Vleuten noted that the paper represented a landmark in his thinking around assessment (Van der Vleuten, 2016). The authors explicitly aim is to shift the focus away from treating assessment as a “measurement problem”. They talk about “programmatic instructional design” and argue that “assessment is an educational design problem that needs a programmatic approach”. They begin with the utility model, discussing the different aspects of assessment identified in the 1996 paper. They then present a compelling proposition, that “we should not evaluate individual methods, but provide evidence of the utility of the assessment programme as whole” (Van der Vleuten & Schuwirth, 2005, p. 309).

철학적 전제
Philosophical presuppositions

이 단계 동안 우리는 [평가에 관한 근본적인 철학적 입장]에 있어서의 명시적인 변화는 없는 상태에서, [심리 측정과 방법을 중심에 두는 주장과 변화]를 관찰하였다. 즉, 프로그래밍 방식의 평가는 이러한 변화의 기회가 나타나기 시작한 것은 사실이나, [새로운 온톨로지나 인식론]을 제공하기 보다는, [주로 역량을 완전히 "측정"하기 위한 다양한 방법]과 연관된다. 예를 들어, 2004년의 프로그램 평가는 [평가 방법의 타당성과 신뢰성 및 역량 측정에 대한 관심]에 의해 지배되는 개념적 공간에 분명히 위치해 있다. 비록 '프로그램적'이라는 용어는 사용되지 않았지만, 그들은 "모든 좋은 평가 프로그램은 [다양한 방법]으로 구성된다"는 개념을 밀어붙였다(Schuwirth & van der Vleuten, 2004, 페이지 975).

During this phase we observe arguments and shifts that place psychometrics and methods at the core, without necessarily making explicit shifts in underlying philosophical positions concerning assessment. That is, programmatic assessment becomes associated with a diversity of methods mainly in order to “measure” competence fully, rather than providing any new ontologies or epistemologies, even though the opportunity for these shifts start to present themselves. For instance, in 2004 programmatic assessment is clearly situated in a conceptual space dominated by concerns of the validity and reliability of assessment methods and the measurement of competence. Although the term ‘programmatic’ was not used, they pushed the notion that “any good assessment programme consists of a variety of methods” (Schuwirth & van der Vleuten, 2004, p. 975).

저자들이 새로운 접근법으로 심리측정학 문제를 극복하는 것을 명시적으로 목표로 했더라도, 2005년의 주장들 중 다수는 [심리측정학 및 측정 기반 사고에 근거]하고 있다. 예를 들면 신뢰성 추정치가 서로 다른 평가 형식에 걸쳐 시험기간에 따라 증가한다는 것을 보여주기 위해 [8개 연구에서 얻은 경험적 증거를 취합하여 신뢰성이 사실상 표본 추출 문제라고 주장]한다. 이들이 도출한 결론 중 하나는 [덜 구조화되었거나 덜 표준화된 평가]라도 "[더 구조화되고 객관적인 측정과 온전히 혹은 거의 신뢰도가 높을 수 있다]"는 것이다(Van der Bluten & Schwirth, 2005, 312쪽, 원래 강조). 신뢰할 수 있는 역량 측정을 달성하기 위해 [샘플링이 가장 중요한 원칙]으로 선정됩니다. 이것은 프로그래밍 평가에 대한 도입 발표를 지배하게 된 [픽셀 은유]가 확산된 기초이다.

Many of the 2005 arguments remain grounded in psychometric and measurement-based thinking, even if the authors explicitly aim to overcome psychometric problems with novel approaches. For example, they argue that reliability is effectively a sampling problem—they collate empirical evidence from eight different studies to demonstrate that reliability estimates all increase with testing time across different assessment formats. One conclusion they draw is that less-structured or standardised assessments “can be entirely or almost as reliable as other more structured and objective measures” (Van der Vleuten & Schuwirth, 2005, p. 312, emphasis in original). Sampling is singled out as the overarching principle to achieve a reliable measure of competence. This is the basis for the proliferation of the pixel metaphor which has come to dominate introductory presentations to programmatic assessment.

타당성 문제에 대해 제시된 논쟁은 후기실증주의, 후기-심리측정적 관점을 취한다. 즉, 역량에 대한 환원주의적 관점을 비판한 것이다. 역량이란 것은 [하위 역량의 분리된 패킷으로 분해될 수 없는] [기술과 능력의 복잡한 통합]에 기초한 [다면적인 현상]이라고 주장하였다. 따라서 좋은 품질 평가는 여러 출처와 다양한 방법의 정보와 "이 출처들에 걸친 정보를 삼각측량하여" 전체적인 판단을 구성하는 것이 필요하다고 주장한다(Van der Bluten & Schwirth, 2005, 페이지 313). 그들은 미래의 평가 개발자의 과제는 이 프로세스를 "가능한 한 엄격하게" 만드는 동시에, 의사결정에 있어 질적(정성적) 정보 출처와 전문적인 판단에 의존하는 것이라고 언급했다.

The argument presented on the issue of validity takes a post-positivist, post-psychometric perspective, criticizing the tendency towards reductionism in assessment—that competence is a multifaceted phenomenon based on a complex integration of skills and abilities which cannot be broken down into discrete packets of sub-competencies. They argue that good quality assessment requires information from multiple sources and from a variety of methods, and the constructing of overall judgments “by triangulating information across these sources” (Van der Vleuten & Schuwirth, 2005, p. 313). They note that one challenge for assessment developers of the future will be relying on qualitative sources of information and professional judgment in decision-making, while making this process “as rigorous as possible”.

반 데르 블뢰텐과 슈워스는 [의학 교육 평가의 실무자들이 심리 측정 접근법을 넘어설 필요가 있다]고 명시적으로 주장한다. 그들은 당시의 평가 문헌이 지나치게 방법에 치우쳐 있었고 "심리측정학 문제에만 몰두했다"고 지적했다(Van der Bluten & Schwirth, 2005, 페이지 315). 대신, 그들은 프로그램적 설계에서는 "단순한" 심리측정 평가로는 충분하지 않을 것이라고 언급하면서, [평가에 대한 관점의 확대]를 주장한다(Van der Bluten & Schwirth, 2005, 페이지 315). 그들이 문제해결에 있어서 [새로운 특정한 관행이나 기술로 문제를 해결]하기 보다는, [(기존의) 관점을 전환하여 문제를 극복하거나 회피하는 것]을 포함했다. 그럼에도 불구하고 흥미롭게도, [심리측정학적 접근방식을 극복]하기 위한 그들의 가장 강력한 주장은, [신뢰성과 더 큰 표본 추출의 문제]인, 심리측정학적 사고에 입각해있다. 비록 그들은 밀접하게 정렬되어 있지만, 이 둘 사이에는 미묘한 특이성이 있다. 궁극적으로, 반 데르 블뢰텐과 슈워스는 환원주의적 측정-기반 경향성을 극복하기 위해 [심리측정에 근거한 주장]을 사용한다.
Van der Vleuten and Schuwirth explicitly argue that practitioners in medical education assessment need to move beyond psychometric approaches. They note that the assessment literature of the time was overly geared towards methods and “too preoccupied with exclusively psychometric issues” (Van der Vleuten & Schuwirth, 2005, p. 315). Instead, they argue for a broadening of perspectives on assessment, noting that for the programmatic instructional design approach to work, “‘simple’ psychometric evaluation will not suffice” (Van der Vleuten & Schuwirth, 2005, p. 315). Their problem-solving move involved overcoming or circumventing problems through shifting perspectives rather than solving them with new specific practices or techniques. And yet, interestingly, their most powerful argument for overcoming psychometric approaches is one predicated on psychometric thinking—the issue of reliability and greater sampling. Although they are closely aligned, there are nuanced specificities between these two. Ultimately, van der Vleuten and Schuwirth employ an argument grounded in the psychometric in order to overcome reductionist measurement-based tendencies.

이 시기 프로그램 평가에서 [실용주의pragmatism]와 관련된 깊은 철학적 이슈도 있다. 전체적으로 평가 프로그램의 유용성을 강조함으로써 실용주의적 함의가 나타났다. 그러나 효용성utility의 전구체로서 목적을 벗어난 견해를 형성할 수 있는 기본적인 가정에 대해서는 명시적인 고려가 이루어지지 않는다. 타당성과 관련하여 효용성utility을 다루는 방법은 미개발적이며, 현재도 고려되고 있다. 평가에서 타당성이 갖던 우위는 경시된 것downplayed으로 보인다. 효용utility 모델을 구성하는 요소를 언급하면서, 저자들은 어떤 기준에 가중치를 두는지는 "특정 상황의 특정 사용자"에 따라 달라질 수 있다는 점에 주목한다(Van der Vleuten & Schwirth, 2005, 페이지 309). 그러나 가치로 작용하는 것이 어떻게 달라질 수 있고 잠재적으로 어떤 경우에는 외부 요인에 의해 암묵적으로 영향을 받을 수 있는지에 대한 설명은 없다. 정치적, 개념적, 심지어 경제적 요소도 효용 기준에 따른 가치에 영향을 미칠 수 있다.

There is also a deep philosophical issue relating to pragmatism in programmatic assessment at this time. By underscoring the utility of assessment programmes as a whole, pragmatist undertones emerge. Yet no explicit consideration is given to underlying assumptions that may shape views beyond purpose as a precursor to utility. The way that utility is treated in relation to validity is underdeveloped, and scantly considered. The primacy of validity in assessment appears to be downplayed. Referring to elements in the utility model, the authors note that the weighting of criteria would depend on “a specific user in a specific situation” (Van der Vleuten & Schuwirth, 2005, p. 309). However, there is no treatment of how what serves as valued can vary and be potentially and, in some cases, insidiously influenced by external factors. Political, conceptual, even economic factors can influence the value placed on utility criteria.

게다가, 이들은 "개별적인 방법"에서 "프로그램"으로의 전환을 지지하면서도, 단지 다르게 포장된 방법들을 강조하는 것처럼 보인다. 그들은 평가에서 보다 [질적인 판단을 지지]하여 측정 기반 접근법에서 벗어날 수 있도록 한다. 그러나 이것은 완전히 사실이 아니다. 이러한 초기 논문에는 역량의 본질에 대한 몇 가지 실증주의적 존재론적 입장이 남아 있다. 예를 들어, 우리가 잠재된 구조를 통해 역량의 본질을 알 수 있는 방법에 대한 근본적인 가정이 있지만, 이제 와서야 어떤 방법이든, [단 한 가지 방법으로는 내재된 심리측정적 한계]가 있기 때문에, [프로그램(방법들의 집합)을 통해 이를 더 잘 포착할 수 있다]는 주장이 제기된다. 
Further, while advocating for a shift from “individual methods to programs” the founders still seem to emphasize methods, just packaged differently. They advocate for more qualitative judgment in assessment, facilitating a departure from measurement-based approaches. But this is not entirely the case. There remains in these early papers some positivist ontological positions on the nature of competence. For instance, there are underlying assumptions about how we can know the nature of competence through a latent structure, only now the argument is that we can better capture this through a program (a collection of methods) because of the inherent psychometric limitations with any one method.

질적 데이터를 사용하고 객관성을 강조하지 않는 것, 그리고 "엄격한 판단"의 필요성이 (굳이 예를 들자면) 필연적으로 [잠재 변수 구인latent variable construct]이라는 입장으로 포기하는 것은 아니다. 정보의 여러 출처를 삼각측량하여 전체적인 판단을 구성하지만, 이는 샘플링을 통한 신뢰성과 같은 [심리측정학적 필수사항imperative]에 복무하는 것이다. 이것은 프로그램 평가의 역사에서 나중에 강조되는 구성주의적 철학적 존재론과는 상당히 다르다.

Even the use of qualitative data and de-emphasizing objectivity, and the need for “rigorous judgment”, is not necessarily abandoning (as an example) a latent variable construct position. Multiple sources of information are triangulated to construct an overall judgment, but this occurs in the service of psychometric imperatives, such as reliability through sampling. This is substantially different to the constructivist philosophical ontology that is highlighted later in the history of programmatic assessment.

요약하자면, 이 단계의 프로그램 평가에는 (과거의) 철학적 전제들 중 많은 것들이 함축적으로 남아 있다. 예를 들어,

  • [판단에 대한 강조]를 하였지만, 이것은 [평가에서 존재론적 또는 인식론적 위치의 변화]가 있었는지, [평가 문헌의 이전 가정이 유지되고 있는지]에 대해서는 아무런 언급도 하지 않는다.
  • "(포화에 도달하고 신뢰할 수 있고 변론할 수 있는 결정이 될 때까지 정보를 계속 축적하는) 질적 접근법"을 채택하는 것도 마찬가지로 그러한 판단이나 주장이 무엇에 관한 것인지에 대한 직접적인 주장이 아니다(Van der Bluten & Schwirth, 2005, 페이지 315).

In summary, many of these philosophical presuppositions remain implicit in this phase of programmatic assessment.

  • The emphasis on judgment, for example, says nothing about shifts in ontological or epistemological positions in assessment, nor whether earlier assumptions from the assessment literature were being upheld.
  • Adopting a “qualitative approach that continues to accumulate information until saturation is reached and a decision becomes trustworthy and defensible” is not a direct claim on the nature of what those judgments or claims are about (Van der Vleuten & Schuwirth, 2005, p. 315).

(통계적 심리측정학에 대한 강조를 포기하거나, 최소화하는 대신) 전문적인 판단을 강조하는 것은 [방법론적 선택 및 정당화를 위한 전략]으로 봐야지, 여기에 [평가가 무엇인지에 대한 명시적인 철학적 관점]이 반드시 필요한 것은 아니다. 이것은 나중에 그것들이 존재론적 및 인식론적 쌍과 어떻게 일치하는지 인식하지 못한 채 프로그램적 방법의 실용적인 채택 사이에 긴장이 나타난 이유를 설명할 수 있다. '평가의 효용성'으로의 이동이 [실용적인 고려]인지 아니면 [실질적인 철학적 실용주의에 기반을 둔 것인지] 또한 현재로서는 불분명하다.
Abandoning or at least minimizing the emphasis on statistical psychometrics in place of professional judgment is also a methodological choice and/or justification strategy, not necessarily an explicit philosophical view of what assessment is when interrogated from different views. This may explain why tensions later emerged between the practical adoption of programmatic methods without appreciating how these align with ontological and epistemological pairings. It is also unclear at this time whether the move to ‘utility of the assessment’ is a pragmatic consideration or one built on substantive philosophical pragmatism.

업샷
Upshots

이것은 우리가 프로그램 평가의 역사에서 볼 수 있는 철학적 전제에서 중요한 전환점을 제공하는 기회를 제공했다. 여전히 방법의 고려, 신뢰성을 위한 표본 추출, 그리고 철학적 입장에 대한 명시적인 취급의 부족에 중점을 두고 있다는 점에서, 아직은 [장면scene이 완전히 바뀌지 않았음]을 암시한다. 그러나 2005년 이후, '프로그래마틱'이라는 단어가 문헌에 점점 더 많이 등장하였다. 2005년 논문은 평가와 교육 설계에 대한 다양한 접근 방식을 깔끔하게 패키징했다. 우리는 2005년 논문에는 [후기 실증주의적 사고방식 외에도, 더 많은 뉘앙스나 혼합된 철학적인 어조가 나타난다는 것]을 알게 되었다. 예를 들어, 학습 및 교육 설계 요소에 대한 영향이 여기에 제시된다. 그럼에도 불구하고, 그 논문의 핵심main driver는 [샘플링을 기반으로 한 직관적인 주장]이라고 볼 수 있다.
This provided the opportunity for a major turning-point in the philosophical presuppositions we see in the history of programmatic assessment. The emphasis still being placed on considerations of methods, sampling for reliability, and the lack of explicit treatment of philosophical positions, implies that the scene had not entirely shifted. Yet after 2005, the word ‘programmatic’ increasingly appeared in the literature. The 2005 paper neatly packaged a range of approaches to assessment and thinking around instructional design. We acknowledge that, aside from the post-positivist mindset, there are more nuanced or blended philosophical tones appearing in the 2005 paper. For instance, impacts on learning and instructional design elements are presented there. Nevertheless, we contend that it is the intuitive argument based on sampling that was the main driver of the piece.

이 주장은 종종 인용되는 '픽셀 은유'에서 가장 큰 영향을 끼쳤다. 즉, 평가 데이터의 축적에 기초한 후보 "진정한" 역량의 '이미지 해상도'에 대한 강력한 입증이다. 그 이후 수많은 컨퍼런스 프레젠테이션에서 픽셀 은유를 사용하여 평가 정보의 샘플링 이점을 입증했다(예: 온라인 참조(Van der Vluten, 2015). 일련의 프레임에서, 하나의 픽셀은 다중 픽셀이 되고, 발견될 "진정한" 이미지의 출현을 나타내는 모나리자의 유명한 그림으로 점차 분해된다. 은유적인 주장은 매우 직관적이고, 의학 교육자들에게 빠르게 반향을 일으켰다. 여기서의 메시지는 더 많은 데이터가 더 나은 그림을 의미한다는 것입니다. 비록 이 은유에서 [역량의 본질]에 대한 명확한 표현은 없었지만, 어떤 의미에서 [타당성의 대용품]이 된 것이다. 픽셀 은유에 반하여, 사이코메트릭 사고에 기초한 관행은 시대에 뒤떨어진 것으로 간주되었다. (크로슬리, 2006; 호지스, 2013).
This argument also brought with it the greatest impact, appearing time and again in the oft-quoted ‘pixel metaphor’; a powerful demonstration of the ‘image resolution’ of candidate “true” competence based on the accumulation of assessment data. Countless conference presentations since have used a pixel metaphor to demonstrate the benefits of sampling assessment information (for an example online, see (Van der Vleuten, 2015)). In a series of frames, a single pixel becomes multiple pixels, and gradually resolves into the famous painting of the Mona Lisa—representing the emerging of a “true” image to be discovered (consistent with positivist assumptions). The metaphorical argument is highly intuitive, and one it quickly resonated with medical educators. The message here is that more data equates to a better picture. This in a sense becomes a surrogate for validity, although there is no clear articulation of the nature of competence in this metaphor. Placed against the pixel metaphor, practises based on psychometric-thinking became to be seen as outdated (Crossley, 2006; Hodges, 2013).

2005년은 프로그램 평가의 역사에서 가장 중요한 순간이지만, 등장 이후 아이디어는 빠르게 변형되었고, 새로운 양상을 띠었으며, 다른 요소들이 강조되었다. 이제 2단계에서 조사 현장의 구성을 설명하는 것으로 전환하고 2005년 논문(및 그 업쇼트)이 의료 교육 평가 환경을 어떻게 빠르게 변화시켰는지를 강조하고자 한다.
Although 2005 represents a signature moment in the history of programmatic assessment, after its emergence the idea quickly morphed, took on new facets, and had different elements emphasised. We now shift to describing the configuration of the scene of inquiry in phase two, and highlight how the 2005 paper (and its upshots) rapidly changed the landscape of medical education assessment.

진화: 다양성과 학습이 강조되고, 구성주의/해석주의 진보 (약 2005-2013)
Evolution: diversity and learning underscored, constructivism/interpretivism advances (approx. 2005–2013)

씬(scene) 구성
Configurations of the scene

이 기간의 씬은 [프로그램 평가의 진화궤적에 영향을 미친 다양한 평가 아이디어]로 특징지어진다. 실무자들이 해결하려고 시도했던 한 가지 주요 문제는 인간의 판단의 역할뿐만 아니라 [다양한 유형의 평가 정보를 결합하는 방법]이었다. 평가 프로그램에는 깔끔하게 축적되거나 함께 합산될 수 없는 역량 평가에 대한 다양한 접근 방식이 포함되어 있습니다. 이는 특히 저부담 평가를 다루는 방법의 다양성에 의해 강조되었다. 예를 들어, 2005년 말에 제출되어 2006년 10월에 수락된 한 논문은 임상 성과 평가에 대한 더 넓은 관점을 추구한다(Govaerts et al. 저자들은 '프로그래밍'이라는 용어를 사용하지 않지만, 2005년 논문을 인용하며 "결과 기반 및 역량 기반 교육에 대한 강조는 관련 역량을 통합하는 평가 방법을 선호하는 것 같다."(Govaerts et al. 2007, 페이지 240)고 언급했다.
This period in the scene of inquiry is characterised by a range of assessment ideas that influenced the evolving trajectory of programmatic assessment. One main problem that practitioners were attempting to solve was how to combine different types of assessment information, as well as the role of human judgment. A program of assessment contains varied approaches to assessing competencies that could not be neatly accumulated or added together. This was particularly emphasised by more diversity in the way that low-stakes assessments were being treated. For example, one paper submitted in late 2005 and accepted in October 2006 pushes for broader perspectives on clinical performance assessment (Govaerts et al. 2007). Although the authors do not use the term ‘programmatic’, they cite the 2005 paper and note “the increasing emphasis on outcome-based and competency-based education is likely to favour assessment methods that integrate relevant competencies” (Govaerts et al. 2007, p. 240).

평가에서 후기-환원주의적 관행은 점점 더 옹호되고 있었다. [평가 판단을 등급, 점수, 등급 및 숫자로 변환하는 일반적인 관행]은 [프로그램 프레임워크에서 의사결정에 필요한 정보의 풍부함을 유지하는 것]과 반대되는 것으로 간주되었다(Schuwirth & van der Vleuten, 2011). 각 평가를 '해치워야ticked-off' 할 장애물로 보기보다는, 많은 주관적 판단이 확실한 그림을 제공한다는 개념이 있었다. 이는 서로 다른 출처에서 추출한 다수의 표본 추출과 서로 다르더라도 의미가 있다는 주장에 의존했다. 정보의 '삼각측량' 개념(질적 연구에서 차용)과 평가 데이터를 패턴과 별자리(전반적인 방법이지만 역량 내에서)로 취급하는 개념이 여기에 연결됐다. 인간의 판단은 "평가 프로세스의 중심central in the assessment process"으로 강조되었다. 이는 객관성과 순수한 측정에서 벗어나 좀 더 주관적이고 구성적이며 해석되는 것으로의 전환을 의미했다. 정성적 접근법의 증가는 평가자 인지에 대한 연구와 같이 다른 곳에서 옹호되고 있는 평가에 대한 접근법과 일치하는 것으로 나타났다(Gingerich 등, 2011; Govaerts 등, 2011).
Post-reductionist practices in assessment were increasingly being advocated (Kim et al., 2006; Ma et al., 2012; Regehr et al., 2007). Common practices of converting assessment judgments to ratings, led scores, grades and numbers to be seen as antithetical to maintaining the richness of information required to make decisions in a programmatic framework (Schuwirth & van der Vleuten, 2011). Rather than seeing each assessment as a hurdle to be ‘ticked-off’, there was a notion that many subjective judgments provide a robust picture. This relied on a multitude of sampling from disparate sources and claims that each were meaningful even if different. Notions of ‘triangulation’ of information (borrowed from qualitative research), and treating assessment data as patterns and constellations (across methods but within competencies) were connected to this. Human judgment was underscored as “central in the assessment process” (Schuwirth & van der Vleuten, 2011, p. 481). This further signalled the shift away from the dominance of objectivity and pure measurement, to something more subjective, constructed and interpreted. The rise of qualitative approaches appeared to coincide with approaches to assessment that were being advocated elsewhere, such as research on rater cognition (Gingerich et al., 2011; Govaerts et al., 2011).

이 단계의 프로그램 평가에서 보여준 주요한 혁신은 [학습에 중점을 둔 것]이었다. 2011년, 슈비르스와 판 데르 블뢰텐은 "프로그램적 평가: 학습 평가에서 학습 평가까지"를 출판했다. 이 논문은 의학교육 외에서 확립된 평가 문헌을 활용했다. 그들은 assessment for learning"평가 과정이 교육 과정에 불가분하게 내재되어 있고, 정보가 풍부하며, 각 개별 학생의 학습을 최대 수준으로 조정하고 육성하는 접근법"으로 제시한다. 이것은 프로그램 평가의 개념이 어떻게 발전하고 있었는지를 보여주는 분명한 지표이다. 
A major innovation in this phase of the evolution of programmatic assessment, was the strong emphasis placed on learning. In 2011, Schuwirth and van der Vleuten published: “Programmatic assessment: From assessment of learning to assessment for learning”. This paper drew on established assessment literature from outside of medical education. They present assessment for learning as “an approach in which the assessment process is inextricably embedded within the education process, which is maximally information-rich, and which serves to steer and foster the learning of each individual student to the maximum of his/her ability” (Schuwirth & van der Vleuten, 2011, p. 478). This is a clear indication of how the notion of programmatic assessment was evolving.

프로그램 평가의 개념이 처음 등장했을 때 살짝 드러났던 '학습'이라는 요소는 비로소 성장하여 강조되었다. 과거에는 학생에 대한 효과적인 피드백이 충분하지 않았다. 하지만 평가 프로그램은 "학생 개개인의 필요에 따라 특별히 조정되어야 한다.". 학생의 학습과 진행을 둘러싼 '맞춤형 조언', '치료', '멘토', '치료적 결정', '프로그노스틱 결정' 등의 문구가 등장한다. 이 ['배움을 위한'] 이라는 요소는 "다양한 출처에서 정보를 수집 및 결합하여, 학생 개개인의 강점과 약점에 대상 정보를 주고, 학습을 최적화하기 위한 목적으로 사용하는, 정보가 풍부한 접근법"이며, 프로그래밍 평가와 명시적으로 연결된다. 

The learning element of programmatic assessment, which appeared in the original emergence of the notion, was nourished and underscored here. Effective feedback to students was not enough—assessment programmes needed to be “tailored specifically to the individual needs of each student” (Schuwirth & van der Vleuten, 2011, p. 481). Phrases such as “tailored advice”, “remediation”, “mentors”, “therapeutic decisions”, and “prognostic decisions” around student learning and progression appear. This ‘for learning’ element is linked explicitly to programmatic assessment, as “an information-rich approach in which a programme of assessment is used to collect and combine information from various sources to inform about the strengths and weaknesses of each individual student, with the purpose to optimise their learning.” (Schuwirth & van der Vleuten, 2011, p. 482).

Van der Vleuten 등의 2012년 논문은 "프로그래밍 평가의 실천을 위한 모델"을 제시한다(Van der Vleuten 등, 2012). 이 논문은 2011년의 학습 강조를 통합하여, 실제로 프로그램 평가가 어떻게 보일 수 있는지에 대한 가장 완전한 그림을 제시한다. 저자들은 "학습자의 성취, 선발, 진급에 대한 견고한 의사 결정과 더불어 "학습을 위한 평가"라는 목적"을 가진 모델을 제시한다. 그들은 학습자 성찰과 계획, 성찰 주변의 사회적 상호작용, 학습 과제가 평가 과제이고 마스터 과제에 대한 인증 데이터 포인트의 구성요소에 의해 연결된 다양한 훈련, 평가 및 지원 활동을 제시한다. 이들은 이 모델이 [가장 합목적적이고, 학습을 최적화하며, 데이터의 의미에 손상을 주지 않으며, 신뢰할 수 있고, 견고한 고부담 의사결정을 할 수 있다]고 주장한다(Van der Vleuten et al., 2012, 페이지 211). 
A 2012 paper by van der Vleuten et al. presents “a model for programmatic assessment in action” (Van der Vleuten et al., 2012). This paper incorporates the learning emphasis from 2011 and presents the most complete picture of what programmatic assessment might look like in practice. The authors present a model that has the explicit “purpose of assessment for learning, with robust decision making on learners’ achievements, selection and promotion” (Van der Vleuten et al. 2012, p. 209). They present a range of different training, assessment and supporting activities, that are linked by components of learner reflection and planning, social interactions around reflection, learning tasks being assessment tasks, and certification data-points for mastery tasks. They argue that their model is optimally fit for purpose, optimises learning, makes no compromises on the meaningfulness of the data, and allows for credible and robust high-stakes decision-making (Van der Vleuten et al., 2012, p. 211).

이는 프로그래밍 방식의 평가가 [샘플링을 통한 더 나은 신뢰성에 관한 것]을 넘어서는 무언가로 전환되었음을 의미하며, 심지어 이전의 우선순위priorities를 강조하지도 않는다. 모든 것을 아우르는 이러한 주장들(즉, 프로그래밍 평가가 이중적인 목적일 수 있음)은 직관적으로 매력적인 개념적 주장이었고 널리 받아들여진 것으로 보인다. 그러나 이러한 주장을 더 자세히 탐구한 후속 연구에서 증명되었듯이 경험적 주장은 여전히 제한적이었다(Heenman 등, 2015). 2012년, Van der Vleuten 등은 [비용과 자원, 관료주의, 소소화와 환원주의, 법적 제한 및 미지의 문제 등] 프로그래밍 평가가 직면할 몇 가지 과제를 예상한다(Van der Vleuten et al. 2012, 페이지 211–212). 그러나 그들은 또한 연구 현장에서 열린 "여러가지manifold" 기회와 "무한한의 연구 가능성"에 분명히 흥분하고 있었다.
This signalled the shift of programmatic assessment from being about better reliability through sampling to something more, even de-emphasizing those earlier priorities. These claims of being all encompassing (i.e., programmatic assessment could be dual purposed) were intuitively appealing conceptual arguments and, it seems, widely taken up. However, empirical arguments were still limited, as evidenced by subsequent research that has explored these claims in more detail (Heeneman et al., 2015). In 2012, van der Vleuten et al. anticipate several challenges that programmatic assessment will be confronted with, such as costs and resources, bureaucracy, trivialisation and reductionism, legal restrictions, and the unknown (Van der Vleuten et al. 2012, pp. 211–212). But they also are clearly excited by the “manifold” opportunities and “infinite number of research possibilities” that have opened up in the scene of inquiry (Van der Vleuten et al., 2012, p. 212).

철학적 전제
Philosophical presuppositions

이 단계에서는 [질적 연구에서 informed된, 구성주의와 해석주의에 강하게 기초한] 사고가 분명하게 출현하였다. 비록 프로그램 평가의 초창기 도입시에도 이러한 개념들이 존재했더라도, 이 단계에서 이러한 요소들이 발전하고 강화되어 프로그램 평가의 구성주의 온톨로지의 기둥이 되었다. 이것이 단지 지엽적으로 교육 연구에서 일어나고 있는 일 때문인지 아니면 아마도 후기 실증주의 움직임에 대한 반응이었는지는 불분명하다. 예를 들어, 2007년에, 고바르트 외 연구진은 "인지, 동기 부여, 의사결정 이론의 요소들을 현장 기반 평가에 통합하는" "구성주의, 사회심리학적 관점"을 명시적으로 요구한다(Govaerts 외 2007, 페이지 252). 

In this phase there was a clear emergence of thinking informed by qualitative research, strongly grounded in and informed by constructivism and interpretivism. Even if these notions were nascent in the original introduction of programmatic assessment, these elements advance and were strengthened here, becoming pillars of programmatic assessment’s constructivist ontology. It is unclear whether this was solely due to what was happening in education research peripherally, or whether it was perhaps in reaction to the post-positivist moves prior. For example, in 2007, Govaerts et al. explicitly call for “constructivist, social-psychological perspective” that “integrates elements of theories of cognition, motivation and decision making” into work-place based assessments (Govaerts et al. 2007, p. 252).

고바에르츠(Govaerts)와 판 데르 블뢰텐(Van der Bleuten, 2013)은 나중에 이를 "구성주의-해석주의 평가 프레임워크"로 제시한다. 본질적으로, 이 견해는 평가를 [사회적으로 구성되고 가치판단적인value-laden 것]으로 본다. 평가자는 평가 과정에 [자신의 신념과 가치]를 가져옵니다. 이것을 사소한 것으로 취급할 수 없으며, 평가 판단은 이런 의미에서 결코 '객관적'일 수 없다. 인간의 판단은 특이하다고 인식되었지만, 틀릴 수 있다. 따라서, 프로그램 평가에서의 의사결정은 [평가의 특정 순간]으로부터 상쇄될offset 필요가 있었다. 위원회는 이러한 검토 과정을 보다 신뢰할 수 있고 신뢰할 수 있게 만드는 데 도움이 되었다. 하지만 [역량이 무엇인지에 대한 개념]은 (존재론적으로) 덜 강조되어, 여전히 인식론적 쌍과 존재론적 쌍 사이에 어느 정도 모호함을 남겼다. 예를 들어, 삼각측량과 주관적 판단을 활용하는 것은 역량이 사회적으로 구성된 것으로 보였는가, 아니면 진정한 역량의 더 가까운 근사치로 보였는가? 그러한 질문들은 직접적으로 다루어지지 않았다.

Govaerts and van der Vleuten later present this as a “constructivist-interpretivist assessment framework” (Govaerts & van der Vleuten, 2013). Essentially, this view sees assessment as socially constructed and value laden. Assessors bring their own beliefs and values to the assessment process. This process cannot be neglected, and assessment judgments can never, in this sense, be ‘objective’. Human judgment was recognised as idiosyncratic, but fallible. Thus, decision-making in programmatic assessment needed to be offset from specific moments of assessment. Committees one-step removed from assessments helped to make this process of review more credible and trustworthy (Driessen et al., 2005; Schuwirth & van der Vleuten, 2011, p. 481). Notions of what competence is—ontologically—were less emphasized leaving some degree of blurring between epistemological and ontological pairings. For example, did leveraging triangulation and subjective judgements mean competence was viewed as socially constructed, or closer approximations of true competence? Such questions were not directly addressed.

이에 대한 다른 측면으로는 [능동적인 참여의 과정]으로서 학습을 강조하는 [사회문화적 학습 요소]가 있다. 평가와 학습 사이의 경계는 의도적으로 모호해졌다. 학습은 평가 활동에 내재되어 있었다. 학습자들은 "멘토/코치 같은 조연 배우"에게 의존하게 되었습니다. 이것은 프로그램 문헌에서 "코치"라는 용어가 "멘토"와 동시에 사용되는 것을 처음으로 알 수 있었습니다. 2011년 논문은 "[교육적 프로세스의 성과 지표로서 학습]과 [역량에 대한 새로운 사회 구성주의 이론의 출현]"을 언급하고 있다(Schuwirth & van der Blouten, 2011). 그들은 문헌에서 나타나는 "평가를 세팅하고 사용하는 방식의 급격한 변화"를 언급하면서, 이것은 "전통적인 접근법에 대한 반대를 절실히 필요로하는 운동"이라고 강조한다(슈비르트 & 반 데르 블뢰텐, 2011, 페이지 478).
The other side to this was the socio-cultural learning element, that emphasises learning as a process of active participation. The boundary between assessment and learning was deliberately blurred—learning was embedded into assessment activities. Learners came to rely on “supporting actors, such as mentors/coaches”. This was the first time we could note the term “coach” being used at the same time as “mentor” in the programmatic literature (Van der Vleuten et al., 2012, p. 211). The 2011 Schuwirth and van der Vleuten paper makes reference to the “emergence of new—social constructivist—theories on learning and the notion of competencies as outcome indicators of the educational process” (Schuwirth & van der Vleuten, 2011, p. 478). They echo the “radical changes in the way we set up and use assessment” from the literature and stress that this is a “highly needed antithetic movement against the traditional approaches” (Schuwirth & Van der Vleuten, 2011, p. 478).

['진짜 점수', '오류' 등의 개념] 및 [이 개념과 관련된 평가 방법을 버리는 것]이 보여주듯, 구성주의/해석주의의 렌즈를 통한 프로그램적 평가의 입지가 강화되었다. 이것은 흥미로운데, 그 당시 더 광범위한 평가 커뮤니티가 이를 따르지 않았기 때문이다. 현재 프로그램화된 평가 문헌 중 일부에는 후기-심리측정적 사고의 요소가 있다. 판 데르 블뢰텐 외 연구진 그들은 "심리측정학 담론이 불완전하다"고 보았기 때문에 "개인, 평가 도구들의 배타적인 심리측정학적인 담론을 넘어서기를" 희망했다(Van der Bleuten et al., 2012, 페이지 212). 고바어츠와 판 데르 블뢰텐은 2013년에 발간된 영향력 있는 논문에서 이러한 주제를 계속 이어가며 "숫자 등급과 표준화된 평가는 역량 평가의 프로그램적 접근에 있어 가치 있는 요소"라는 주장을 유지했지만, 그들은 "평가 프로그램에서 양적 및 질적 접근법의 신중한 균형을 목표로 해야 한다"고 제안한다(Govaerts & van der Bleuten, 2013, 페이지 1172).
There was a strong positioning of programmatic assessment through the lens of constructivism/interpretivism, such as abandoning concepts of ‘true scores’, ‘error’ and the assessment methods associated with them. This is interesting, as the broader assessment community had not, at this time, followed suit. There are elements of post-psychometric thinking in some of the programmatic assessment literature at this time. Van der Vleuten et al. hoped to “move beyond the exclusively psychometrically driven discourse of individual, assessment instruments”–because as they saw it, “psychometric discourse is incomplete” (Van der Vleuten et al., 2012, p. 212). Govaerts and van der Vleuten continued these themes in an influential paper published in 2013, maintaining that “numerical ratings as well as standardised assessments are valuable elements in programmatic approaches to competence assessment” (Govaerts & van der Vleuten, 2013). However, they propound that “we should aim for careful balancing of quantitative and qualitative approaches in our assessment programmes” (Govaerts & van der Vleuten, 2013, p. 1172).

이 단계 동안의 학술 논문은 [방법에 대한 논의]에서 [(방법론적 주장을 뒷받침하는) 보다 명확한 철학적 토대]로 전환되는 것으로 보인다. 이것은 다소 암묵적이지만, 상충하는competing 철학적 입장을 소개하기도 했다. 타당성 고려는 때때로 이러한 변화의 초석이었다. 역량에 대한 개념은 이론적이고 철학적인 관점에서 더 잘 설명되었고 평가 활동을 주도하는 근본적인 가정과 일치했다. 그러나 타당성은 분명히 그 논의의 일부가 아니었다. 실제로 타당성은 매우 중요한 개념이라기보다는 효용utility 모델에서 하나의 변수일 뿐이었고, Programmatic assessment에서 급진적으로 탈-강조된de-emphasized 변수였다. 프로그램 평가의 이 진화 단계에서는 [실용주의적 개념]이 더 중요한 것처럼 보인다. 예를 들어, 구성주의/해석주의에 대한 주장을 하면서도, '뭐든 다 된다anything goes'는 접근에 반대하며, "진실Truth"이 아니라 "주장"의 정당성과 방어 가능성을 지지하는 것과 같은 [실용주의라는 함의]가 있다.

The academic papers during this phase appear to shift from discussions of methods to more explicit philosophical underpinnings that support methodological arguments. This also introduced, although somewhat implicitly, competing philosophical positions. Validity considerations were at times the cornerstone to these shifts. Notions of competence were becoming better elucidated from a theoretical and philosophical perspective and they were matched to the underlying assumptions driving assessment activities. And yet validity was not explicitly part of that discussion. Indeed, validity was only one parameter in the utility model rather than an overarching concept, and a parameter that programmatic assessment radically de-emphasized. Pragmatist notions seem to matter more in this evolutionary phase of programmatic assessment. While there is a claim toward constructivism/interpretivism, there are undertones of pragmatism, for example arguing against an ‘anything goes’ approach and instead arguing for the justifications and defensibility of claims, not of Truths.

업샷
Upshots

이 시기의 흥미로운 결과 중 하나는 [프로그램 평가의 시행 경험]을 제시한 최초의 논문이었다. 2013년 한 논문은 프로그램 평가가 "실행하기 쉽지 않은 것으로 입증되었다"고 언급했다(Bok 등, 2013). 실제로 프로그램 평가의 문화적 요소가 가장 어려워 보였다. 예를 들어, 학생들을 위한 교수진 개발과 훈련에 대한 관심이 부족했습니다. 학생들은 점수가 낮은 평가조차도 총괄적이라고 느낀다는 것을 발견했습니다. 프로그래밍 평가의 학습 요소는 모든 이해관계자의 새로운 사고 방식을 필요로 하며, 프로그래밍 평가를 구현하는 것은 어려울 것이라는 것이 분명했다.
One interesting upshot from this period was the first papers that presented experiences from implementing programmatic assessment. A 2013 paper noted that programmatic assessment “proved not easy to implement” (Bok et al., 2013). Indeed, the cultural elements of programmatic assessment seemed to be the most challenging. For instance, insufficient attention was placed on faculty development and training for students. Students found that even the low-stakes assessments felt summative. It was clear that the learning elements of programmatic assessment would require a new way of thinking from all stakeholders, and that implementing programmatic assessment would be challenging.

[프로그램 평가]를 위한 실증적 타당성 주장이 매우 많이 진행되고 있었다. 이 전까지는 프로그래밍 평가를 지지하는 많은 주장은 개념적이고 이론적이었다(슈비르트 & 반 데르 블뢰텐, 2012). 맥락적 증거보다는 프로그램적 평가의 특징이 근거를 대신하고 되었다. [학습]을 강조하면서, [학습]을 향해 전환되었고, 교수설계는 [타당도 주장]은 탈-강조화하였다. 그리하여 실제로 이 두 가지가 충돌할 경우, 언제 어디에 중점을 두어야 하는지에 대한 약간의 불확실성이 남았다(방어성defensibility을 지지하는 활동은 학습learning을 지원하는 활동과 반대contrasted될 수 있다.)
Empirical validity arguments for programmatic assessment were very much in progress. Many of the arguments in support of programmatic assessment had been conceptual and theoretical (Schuwirth & van der Vleuten, 2012). Features of programmatic assessment rather than contextual evidence had come to serve as surrogates. The emphasis on and transition to learning, de-emphasized validity arguments in place of instructional designs. This left some uncertainty about where, in practice, to place emphasis if and when the two were in conflict (activities supporting defensibility contrasted with activities supporting learning).

의과대학이 이미 학생 학습의 비계, 수준 높은 피드백 제공, 멘토링에 집중하고 있었음에도 불구하고, 이 기간은 이러한 고려 사항을 평가 고려의 최전선에 올려놓았다. 확실히, 평가 프로그램을 보는 관점은 [부분의 합]보다는 [전체whole 측면]에 가까웠다. 많은 사람들에게 평가는 더 이상 [측정의 문제]라거나 [[합격 점수]에 대해서 순위를 매기려는 시도]가 아니었다. 평가는 이제 [학습을 더 넓은 관점에서 보는 복잡한 구성 요소]였고, [여러 형식과 맥락에 걸쳐 분포된 것]이었다. 또한 교수진에서 요구되는 평가의 양, 학습에 대한 평가의 극단적 강조와 관련된 실질적인 문제, 비용 관련 등과 같은 [평가에서 긴장감]이 나타났다. 그러나, 프로그래밍 방식의 평가는 여전히 많은 사람들에게 새로운 아이디어였다. 프로그램 평가의 다음 단계는 그것이 오늘날 의학 교육에서 평가 이론과 실습을 점점 더 규제하는 확고한 개념이 되는 것을 보았다.
Even if medical schools were already focusing on scaffolding student learning, providing high-quality feedback, and mentoring, this period brought these considerations to the forefront of assessment considerations. Certainly, assessment programs were being viewed more in terms of their whole, rather than in terms of the sum of their parts. For many, assessment was no longer a measurement problem, or an endeavour used rank candidates against cut scores. Assessment was now an intricate component of a broader perspective on student learning, and something that was distributed across multiple formats and contexts. There also emerged tensions in assessment, for example with the volume of assessment required in faculties, practical issues regarding the extreme emphasis on assessment for learning, cost implications, and so on. However, programmatic assessment was still, to many, a new idea. The next phase of programmatic assessment’s trajectory saw it become an entrenched notion that increasingly regulates assessment theory and practice in medical education today.

굳게 자리잡기: 풍부한 서술, 학문적 통합, 그리고 철학적 전제의 모호함(약 2013-2020)
Entrenchment: rich narratives, disciplinary consolidation and the blurring of philosophical presuppositions (approx. 2013–2020)

씬(scene) 구성
Configurations of the scene

프로그램 평가의 궤적에서 가장 최근의 단계는 [학문적 통합displinary consolidateion]의 단계로 절정에 이른다. 그러나 이에 앞서 먼저 ['정보의 풍부함']을 2013년 이후 고착화된 하나의 실질적인 요소로 파악할 수 있다. 이전 단계에서 [정보다양성diversity]과 [삼각측량triangulation]이라는 개념이 등장했지만, 이후 [풍부함richness]과 [의미meaningfulness]에 대한 강조가 나타난 것으로 보인다.

  • 2013년, Govaerts & van der Blouten은 "성과에 대한 풍부하고 서술적인 평가"를 "학습 극대화를 위해 평가 시스템의 형성 기능을 강화"하고, "신뢰할 수 있는 의사 결정"을 보장하기 위한 "필수적인" 평가 데이터로 요구하였다(Govaerts & van der Bluten, 2013, 페이지 1171–1172).
  • 그들은 이 개념을 "숫자에서 단어로의 변화"라고 포장한다(Govaerts & van der Blouten, 2013, 페이지 1172). 

This most recent phase in the trajectory of programmatic assessment culminates in what we term disciplinary consolidation. But before this, first we identify ‘information richness’ as one substantive element that became entrenched after 2013. Although the notions of information diversity and triangulation appeared in the previous phase, it seems that the emphasis on richness and meaningfulness emerged later.

  • In 2013, Govaerts and van der Vleuten call for “rich, narrative evaluations of performance” to “enhance the formative function of the assessment system to maximise learning” and as “indispensable” assessment data to ensure “trustworthy decision making” (Govaerts & van der Vleuten, 2013, pp. 1171–1172).
  • They package this notion as “a shift from numbers to words” (Govaerts & van der Vleuten, 2013, p. 1172).

 

흥미롭게도, 이러한 추진은 더 넓은 의학 교육 문헌과 병행되었고, 2013년 Hodges의 기념비적 논문 제목에서 '포스트 사이코메트리 시대'라는 용어를 사용한 첫 번째 사례였다(Hodges, 2013). 이후 수많은 저자들은 우리가 지금 주관적이고 질적인 데이터가 점점 더 중시되는 시대에 살고 있다고 주장했다. 반구조적 인터뷰 및 기타 접근법에서 '부유한' 및 '두꺼운' 데이터를 도출하는 것과 같은 질적 연구 방법론의 개념은 새로운 통찰력을 창출했다(Bearman, 2019; Schultze & Avital, 2011). 그럼에도 불구하고, 우리와 다른 사람들이 이전에 주목했듯이, 반-심리측정적anti-psychometric 개념이 문헌을 포화시키기 시작했다(Pearce, 2020; Schoenherr & Hamstra, 2016).

Interestingly, this push was paralleled in the wider medical education literature, and 2013 was the first time the term ‘post-psychometric era’ was used in the title of Hodges’ seminal paper (Hodges, 2013). Since then, numerous authors have claimed that we are now living in an era where subjective and qualitative data are increasingly valued. Notions from qualitative research methodologies, such as eliciting ‘rich’ and ‘thick’ data from semi-structured interviews and other approaches have generated new insights (Bearman, 2019; Schultze & Avital, 2011). And yet, as we and others have previously noted, anti-psychometric conceptions have begun to saturate the literature (Pearce, 2020; Schoenherr & Hamstra, 2016).

일부에서는 이제 [숫자와 등급]이 [서술자와 서술어]에 비해 의미가 없다는 믿음이 강하다(Cook 등 2016년; Ginsburg 등 2017년; Hanson 등 2013년). 프로그램적 관점에서 본다면, 평가는 풍부하고 의미있는 평가 데이터를 요구한다. 그리고 이를 위해서는 점점 더 서술적인 정보가 필요하다. 이러한 움직임의 동인은 평가자의 독특한 번역 과정뿐만 아니라 프로그램 평가의 결정이 신뢰할 수 있고 신뢰할 수 있는지 확인하는 방법과 관련된 문제와 관련이 있는 것으로 보인다. 진보진영이나 역량위원회가 발표에서 [풍부하지 않거나 의미가 없는 자료]를 바탕으로 고부담 결정을 내리기는 어렵다는 주장이다. 그러나, 이것이 [데이터가 오로지 질적이어야 한다]는 뜻으로 여기는 것은 잘못되었을 수 있다(Pearce, 2020). 정성적 설계이든, 정량적 설계이든, 데이터의 수집, 축적, 집계 및 제시 방법과 관계없이, [유의성meaningfulness]이란 별도의 측면facet이며, 철학적 지향의 함수이다. 프로그래밍 방식의 평가가 발전해온 궤적 속에서 풍부한 서술적 질적 데이터(관련 방법을 통해 생성됨)가 가장 고평가된 것은 역사의 흥미로운 변덕이다. 아이러니하게도, 방법은 의미보다 우선시 되어왔다.
There is now a strong belief in some circles that numbers and grades are meaningless compared with descriptors and narratives (Cook et al. 2016; Ginsburg et al. 2017; Hanson et al. 2013). Assessment, when considered from a programmatic mindset, requires the assessment data to be rich and meaningful. And this, increasingly, requires narrative information. The driver of this move appears to be connected with the problem of how to make sure that decisions in programmatic assessment are credible and trustworthy as well as the idiosyncratic translational processes of assessors. The argument being that it is difficult for a progression or competence committee to make a high-stakes decision based on data that are not rich or meaningful in their presentation. However, it may have been misguided to assume that this necessitates that the data be solely qualitative (Pearce, 2020). Irrespective of how data is collected, accumulated, aggregated, and presented, meaningfulness is a separate facet—regardless of whether it is qualitative or quantitative in its design and is a function of philosophical orientations. It is an interesting vagary of history that due to the trajectory taken by programmatic assessment, rich narrative qualitative data (generated through associated methods) has become most highly valued. Ironically, methods have been prioritized over meaning.

이 단계에서 문헌을 포화시켜나간 또 다른 주요 이슈는 [실무자가 어떻게 프로그래밍 평가를 구현해야 하는지]에 대한 것이다. 복 연구원의 경험 이후 추진과제가 조사 현장의 초미의 관심사로 떠올랐다. 프로그래밍 평가에 관한 기념비즉 '12가지 팁' 논문은 2015년에 발표되었다(Van der Vluten et al. 2015). 본 논문은 2012년 논문에 따라 '학습을 위한assessment for 프로그래밍 평가'로 프로그램 평가를 제시하였다. 이 논문은 2015년 이후 프로그램 평가가 표현된 방식으로 많은 진화를 통합하는데 기여했으며, [학습자 중심의 교육적 요소, 의미 있는 피드백 및 멘토링, 그리고 중요한 프로세스 관련 고려사항과 구현 과제]를 강조한다.
The other main issue that saturates the literature in this phase is how practitioners should go about implementing programmatic assessment. After the experience of Bok et al., the challenges of implementation came to be a pressing concern in the scene of inquiry. A seminal ‘Twelve Tips’ paper on programmatic assessment was published in 2015 (Van der Vleuten et al. 2015). This paper presented programmatic assessment in line with the 2012 paper as ‘programmatic assessment-for-learning’. The paper serves to consolidate many of the evolutions in the way programmatic assessment had been expressed since 2015, underscoring the learner-centred pedagogy elements, the meaningful feedback and mentoring aspects, and importantly the process related considerations and implementation challenges.

본 논문과 함께, 2017년에 출판된 중요한 책 챕터는 프로그램 평가를 이 분야에서 확고한 하나의 하위 분야로 통합하는 데 중요한 역할을 했다. 역사학자들은 [교과서와 교육 자원]은 scene of inquiry의 중요한 참조점이 되기 때문에, 반복적으로 학문을 생성하며, 학문 분야의 통합이 뒤따른다고 주장해왔다(Badino & Navarro, 2013; Kragh, 2013). 하든 앤 헌트의 A Practical Guide for Medical Teachers 의 한 챕터에서는 더욱 설득력있게 설명한다. 즉, '전통적 접근법'과 비교했을 때, 프로그램적 평가를 혁신적이고 대안적인 접근법으로 전략적으로 배치하여 제시한 것이다. 이 챕터는 의학 교육을 종합적으로 다룬 교과서 속에 [프로그램 평가]의 위치를 공고히crystalize하였다. 더 많은 교과서 챕터가 지금 등장하고 있습니다. 예를 들어, 2020년에 출판된 Assessment in Health Professions Education 에는 프로그램 평가에 관한 장이 수록되어 있다(Van der Bluten 등, 2020).
Along with this paper, an important book chapter published in 2017 (Van der Vleuten et al., 2017) played a crucial role in consolidating programmatic assessment as its own sub-discipline. Historians have argued that textbooks and educational resources iteratively create and subsequently consolidate a discipline, as they become an important reference point for a scene of inquiry (Badino & Navarro, 2013; Kragh, 2013). The book chapter in Harden and Hunt’s A Practical Guide for Medical Teachers recounts a compelling narrative—programmatic assessment is presented as an innovative and alternative approach in medical education assessment, strategically positioned against ‘traditional approaches’ to assessment. This chapter crystalizes programmatic assessment in a comprehensive textbook on medical education. Further textbook chapters are now appearing. For instance, Assessment in Health Professions Education published in 2020 features a chapter on programmatic assessment (Van der Vleuten et al., 2020).

최근 몇 년간 [진부하고 문제가 많으며 전통적인 평가 방식]을 극복한 [학습과 혁신의 승리로서 프로그램 평가]의 이야기를 되짚어보는 내러티브가 이어지고 있다.

  • '시험'이 어떻게 '배움을 위한 프로그래밍식 평가'가 되었는지에 대한 선구자들의 논문이 발표되었다(슈워스 & 반 데르 블뢰텐, 2019).
  • 또 다른 반 데르 블뢰텐은 2005년 논문을 재방문하여 프로그램적 사고가 의학 교육 평가라는 scene of inquiry에 어떤 영향을 미쳤는지 설명한다(Van der Bluten, 2016).
  • 반 데르 블뢰텐의 여러 컨퍼런스 기조연설은 의료 교육에서의 평가에 대한 이야기부터, 실무자들이 직면한 문제들, 최선의 방법을 찾기 위한 고군분투, 그리고 이러한 문제들을 극복하기 위한 프로그래밍 방식으로의 사고로의 전환까지를 다시 다루었다.
  • 이러한 강연의 비디오는 유튜브와 같은 동영상 플랫폼과 반 데르 블뢰텐의 개인 웹사이트(Van der Blouten n.d.)에서 쉽게 이용할 수 있다.

In recent years, a narrative that recounts the story of programmatic assessment as a victory for learning and innovation overcoming tired, problematic and traditional approaches to assessment has continued.

  • A paper by the pioneers on how ‘testing’ has become ‘programmatic assessment for learning’ was published (Schuwirth & van der Vleuten, 2019).
  • Another by van der Vleuten revisits the 2005 paper to recount how programmatic thinking has affected the scene of inquiry in medical education assessment (Van der Vleuten, 2016).
  • Multiple conference keynotes by van der Vleuten have retold the story of assessment in medical education, from the problems practitioners faced, the struggle to find the best methods, to the shift to thinking programmatically to overcome these problems.
  • Videos to these lectures are readily available online on video platforms such as YouTube and links provided on van der Vleuten’s personal website (Van der Vleuten n.d.).

우리는 이러한 자원의 가치나 질에 대해 어떠한 판단을 하려는 것이 아님을 강조하고자 한다. 우리는 단지 이러한 자원들이 어떠한 프로그래밍적 평가를 하위-학문분야로서 공고히 하는지를 보여주기 위해 기술하는 것이다. 현재까지는 프로그램적 평가에서 [철학적 영향이나 의미]를 함축적이고 불확실하게 남겨두고 있으며, [철학적 입장] 뿐만 아니라 [교수설계 및 타당도]에 대한 관점이 어떻게 흡수되고 있는지에 대해서 불완전하다.

We should stress that we are making no judgments on the value or quality of these resources. We are simply being descriptive to highlight how these resources all add to the entrenchment of programmatic assessment as its own sub-discipline in a way that may be incomplete by leaving philosophical influences or implications implicit and uncertain, and by blending (in some cases blurring) those philosophical positions as well as perspectives on instructional design and validity, in how these are taken up.

마지막으로, 프로그래밍 평가의 '학제적 통합'의 또 다른 대표적인 모습으로써, 의학 교육 컨퍼런스에서 프로그램 평가를 다루는 일련의 흐름을 보면 짐작할 수 있다. 유럽 의료 교육 협회(AMEE) 회의, 유럽 의료 평가 위원회(EBMA) 회의, 오타와 의학 및 의료 전문가 역량 평가에 관한 회의와 같은 주요 회의들이 현재 모두 프로그램 평가에만 배정된 스트림(세션)을 운영하고 있다. 2020년 오타와 컨퍼런스는 프로그램 평가가 '합의문' 과제 중 하나로 선정된 첫 번째 사례이기도 하다. 현재 scene inf inquiry에는 프로그래밍 방식의 평가가 굳게 자리를 잡았다.
Finally, another exemplar of the ‘disciplinary consolidation’ of programmatic assessment is the emergence of entire streams on programmatic assessment at medical education conferences worldwide. Major conferences such as the Association for Medical Education in Europe (AMEE) conference, the European Board of Medical Assessors (EBMA) conference, and Ottawa Conferences on the Assessment of Competence in Medicine and the Healthcare Professions, now all run streams dedicated to programmatic assessment. The 2020 Ottawa Conference was also the first time that programmatic assessment was selected as one of its ‘consensus statement’ undertakings. Programmatic assessment is now entrenched in the scene of inquiry.

철학적 전제
Philosophical presuppositions

이전에 나타난 구성주의/해석주의 철학적 존재론은 이제 확고히 자리잡은entrenched 철학적 전제가 되었다. 이것은 판 데르 블뢰텐 등에 의해 [명시적으로 주장]되었다. "학습에 대한 구성주의적 개념을 기본으로 한다면, 학습에 대한 프로그램적 평가를 훈련 연속체의 모든 부분에 적용할 수 있다." (Van der Vleuten et al., 2015, 페이지 641) 그러나 이전 단계에서 존재했던 [초기의 철학적 실용주의]가 가장 최근 시기에 강조된 것으로 보인다. 이 단계에서는 실용성utility에 대한 강조가 실용적인pragmatic 고려사항에 기초한다. 2017년 교과서 챕터의 요약은 [평가를 최적화 문제]로 설명하고 있으며, 이는 평가계의 많은 사상가들의 생각이기도 하다. (Van der Bluten et al., 2017, 페이지 302). 이러한 표현은 1996년 논문과 그 논문에 나온 효용 공식utility formula으로 거슬러 올라가는데, 다만 공식의 변수parameter만 암묵적으로 다를 뿐이다. 풍부한 정보 수집과 마찬가지로 학습과 피드백이 강조된다. 실무자는 프로그램적 접근방식을 실행하는 데 실용적일 필요가 있다. 이러한 실용성은 [교육생/학습자의 진급]에 대해 [방어가능하고 정당화가능한 결정을 내릴 수 있는 능력]을 inquirer에게 제공할 [필수적이고 합리적인 양의 다양한 평가 데이터]에 의해 informed될 것이다.
The constructivist/interpretivist philosophical ontology that previously emerged became an entrenched philosophical presupposition. This is explicitly propounded by van der Vleuten et al.: “Programmatic assessment-for-learning can be applied to any part of the training continuum, provided that the underlying learning conception is constructivist” (Van der Vleuten et al., 2015, p. 641). However, it appears that the nascent philosophical pragmatism that was present in the previous phase is emphasised in this most recent period. In this phase, the emphasis on utility is built on pragmatic considerations. The summary of the 2017 textbook chapter explicates assessment as an optimization problem, in line with many thinkers in assessment circles. (Van der Vleuten et al., 2017, p. 302). This language harks back to the 1996 paper and its utility formula, only now the formula parameters are implicitly different. Learning and feedback is emphasised, as is the gathering of rich information. It is clearly articulated that practitioners need to be pragmatic in executing a programmatic approach, and these considerations will be informed by the requisite and reasonable volumes of varied assessment data that will afford inquirers the capacity to make defensible and justified decisions about trainee/learner progress.

여기서 강조된 [철학적 실용주의]는 새로운 평가 은유와 유추의 확산에 의해 문헌에서 잘 뒷받침된다. 대표적인 은유로는 교육자와 실무자를 위한 [사고 도구] 또는 [휴리스틱]입니다. [상식]과 ['실용적이 되는 것being pragmatic']의 개념에 호소하는 진술에 대하여 논쟁을 걸기는 어렵다. 예를 들어,

  • Schuwirth 등은 [의료와 프로그램 평가 사이에 5가지 특정 유사점]을 도출하여 현재 의료에 대한 사고가 평가 시스템에서 실제로 제정될 수 있음을 시사한다(Schuwirth 등, 2017).
  • Uijtdehaage와 Schwirth는 프로그램적 평가를 [보컬 코치의 역할]처럼 생각할 수 있다고 제안한다: "가수가 (자주 피드백을 제공함으로써) 최대한의 잠재력을 달성하도록 돕지만, 결국 "가수가 합창단에 합류할 수 있는지 또는 솔리스트가 될 수 있는지"를 종합적으로 결정하는 것.
  • 트위드와 윌킨슨은 [강력하고 방어 가능한 진행 결정을 내리기 위해 정보를 종합하는 방법]에 대한 탐구를 통해, [임상 의사결정]과 [배심원 의사결정]이 모두 [프로그램 평가의 의사결정]과 유사점이 있음을 보여준다(Tweed & Wilkinson, 2019).
  • 같은 연구자들은 또한 프로그램 평가를 '임상 4상에 들어가는 약“about to enter Phase IV trials”'에 비유한다. 즉, 이제는 프로그램적 평가가 어떻게 더 광범위하고 다양한 맥락에서 적용될 수 있는지를 볼 때임을 시사한다. '전부 아니면 전무' 접근법에 의해 제약을 받기보다는, 프로그램 평가의 여러 요소들이 어떤 곳에서 도입될 수 있는지를 보아야 한다는 것이다.
  • 이러한 움직임은 '프로그래밍적 사고programmatic thinking'를 말하는 피어스와 프라이도(Pearce & Pridaux, 2019)에 의해 더욱 반영된다.

The philosophical pragmatism underscored here is well buttressed in the literature by a proliferation of new assessment metaphors and analogies. These metaphors are thinking tools or heuristics for interested educators and assessment practitioners. It is hard to argue with such statements that appeal to common sense and notions of ‘being pragmatic’. For example,

  • Schuwirth et al. draw five specific analogies between healthcare and programmatic assessment, suggesting that currently thinking in healthcare can actually be enacted in assessment systems (Schuwirth et al., 2017).
  • Uijtdehaage and Schuwirth suggest that the process of programmatic assessment can be thought of in terms of the role of a vocal coach: helping “a singer achieve his or her utmost potential (by giving frequent feedback) but eventually” making “a summative decision whether the singer can join the choir or can be the soloist” (Uijtdehaage & Schuwirth, 2018, p. 350).
  • Tweed and Wilkinson draw parallels in clinical decision-making and jury decision-making with decision-making in programmatic assessment, exploring ways to aggregate information to make progression decisions that are robust and defensible (Tweed & Wilkinson, 2019).
  • They also compare programmatic assessment to a drug “about to enter Phase IV trials” (Wilkinson & Tweed, 2018, p. 191), suggesting that it is time to see how programmatic assessment can be applied more widely and in varied contexts, noting that elements of programmatic assessment can be implemented where feasible, rather than practitioners being constrained by an ‘all-or-nothing’ approach.
  • This move is further echoed by Pearce and Prideaux who speak of “programmatic thinking” and how it can be applied in post-graduate medical education (Pearce & Prideaux, 2019).

업샷
Upshots

프로그램 평가는 [그 자체로 하나의 철학적 접근법]이 되었다. 그것은, 어떤 의미에서는, 그것만의 패러다임이고, 그것은 그것만의 역사적 서사를 말해준다. 프로그램 평가의 제자disciple가 되기 위해서는, 의학 교육에서 평가의 역사 – 장애물, 문제, 함정 및 해결책 – 에 대해 배울 수 있다. 우리는 이 경건한 용어를 경멸적인 의미로 사용한 것이 아니며, 단지 서술적인 의미로 쓴 것이다. 전향자convert가 되기 위해서는 우선 그것의 역사적 서사를 감상하고 그것의 철학적 토대에 따라야 한다. 프로그래밍 방식의 평가는 교육자들에게 반향을 불러일으킨다. 배치된 은유들은 신뢰와 헌신을 용이하게 합니다. 그러나 프로그래밍 방식의 평가를 운영하는 것은 여전히 사람과 문화에 크게 의존하고 있다. 이해당사자들은 그것이 잘 작동하기 위해서는 그것을 믿어야 하고, 따라서 참여와 바이-인(buy-in)에 대한 중요한 요구입니다.
Programmatic assessment has become its own philosophical approach. It is, in a sense, its own paradigm and it tells its own historical narrative. In order to become a disciple of programmatic assessment, one can learn about the history of assessment in medical education—its obstacles, problems, pitfalls, and solutions. We don’t use this pious terminology in a pejorative sense, just in a descriptive sense. In order to become a convert, one must first appreciate its historical narrative and subscribe to its philosophical underpinnings. Programmatic assessment resonates with educators. The metaphors deployed facilitate trust and devotion. But operationalizing programmatic assessment remains heavily dependent on people and culture. Stakeholders need to believe it for it to work well, hence the crucial calls for engagement and buy-in.

프로그램적 평가라는 아이디어는 이제 완전히 자리를 잡았고, 은유와 '논쟁이 어려운 주장'들이 scene of inquiry에 스며들었다. 링가드는 건강 직업 교육에서 "갓-텀"에 대해 저술했으며(Lingard, 2009), 프로그래밍 평가가 이 지위에 도달한 것으로 보인다. 그러나 배심원단은 이러한 아이디어와 관련 주장이 경험적으로 버틸 수 있는지에 대해 여전히 의견이 분분하다.

  • 더 많은 평가 데이터, 풍부한 정보, 의사결정 위원회 및 프로그래밍 프로세스를 통해 타당성이 향상되는가?
  • 프로그래밍 방식의 평가는 그것이 처음 등장한 네덜란드에서 떨어진 문화적 맥락에서 효과가 있는가?

Programmatic assessment ideas have become entrenched, and metaphors and ‘hard to argue statements’ have permeated the scene of inquiry. Lingard has written about “god terms” in health professions education (Lingard, 2009), and it seems that programmatic assessment has reached this status. However, the jury (to borrow one metaphor) is still out on whether these ideas and associated claims bear out empirically.

  • Is validity enhanced through more assessment data, rich information, decision-making committees and programmatic processes?
  • Does programmatic assessment work in cultural contexts away from the Netherlands, where it first emerged?

변화 관리 및 실행 전략과 관련된 이슈가 문의자들에게 긴급한 질문이 되고 있습니다. [다양한 데이터 수집]이라는 프로그램 평가(및 주요 메시지)의 특징은 [타당성을 입증하는 더 전통적인 접근법]을 배제하고도 [타당성에 대한 증거]로 취급되고 있다. 다른 의과대학들은 프로그램적 사고의 구현과 그에 맞는 효과를 보는 방법을 모색하고 있다(Pearce et al., 연구자들은 프로그래밍 평가가 학생 학습에 미치는 영향(Heeneman 등, 2015)과 그것이 교사와 학습자를 위해 개념적으로 어떻게 인스턴스화되는지에 대한 실증 연구를 수행하고 있다(Shut 등, 2018, 2020). 연구자들은 다양한 기회에 여전히 흥분해 있다.

Issues around change management and implementations strategies are becoming pressing questions to inquirers. Features of programmatic assessment (and key messages) such as the collection of diverse data are being treated as evidence for or evidence of validity without more traditional or recommended approaches to demonstrating validity. Different medical schools are exploring ways of implementing aspects of programmatic thinking and seeing what works for them (Pearce et al., 2021). Researchers are conducting empirical research into the impact of programmatic assessment on student learning (Heeneman et al., 2015), and how it is conceptually instantiated for teachers and learners (Schut et al. 2018, 2020). Researchers remain excited by manifold opportunities.

성찰을 마무리하며
Concluding reflections

[역사적 인식론]이라는 지적 전통을 바탕으로, 우리는 의료 교육에서 [프로그램 평가]의 변화하는 구성을 비판적으로 추적하여 평가와 관련된 유동적이고 문화적 탐구 관행을 강조하였다. 우리는 독자들에게 우리가 '왜'가 아닌 이 역사의 '무엇'과 '어떻게'에 집중하고 있었음을 다시 한번 강조하고자 한다.

  • 우리는 다른 사람들이 우리의 설명이 정확한지 판단하기 위해 비슷한 방식으로 문헌에 관여할 것을 적극적으로 권한다.
  • 우리는 궤적이 다른 가능한 경로에서 특정 경로를 택한 이유에 대해 몇 가지 제안을 했지만, 다른 사람들은 다른 비판적 메타 철학 관점에서 프로그래밍 방식 평가(그리고 실제로 더 광범위하게 평가)를 신중하게 조사하기를 바란다.

Drawing upon the intellectual tradition of historical epistemology, we have attempted to critically trace the shifting configurations of programmatic assessment in medical education, underscoring the fluid, cultural practice of inquiry in relation to assessment. We remind the reader that we were focusing on the ‘what’ and the ‘how’ of this history, rather than the ‘why’.

  • We actively encourage others to engage with the literature in a similar way to determine whether our account is accurate.
  • Although we have made some suggestions throughout as to why the trajectory took a certain path over other possible paths, we hope others carefully investigate programmatic assessment (and indeed, assessment more broadly) from different critical meta-philosophical perspectives.

우리는 철학적 조사를 통해 현재의 평가 관행을 새롭게 조명할 수 있다고 주장한다. Scene of inquiry - 즉, 변화하는 질문, 문제, 관행 및 추정의 변화- 에 초점을 맞춤으로써, 프로그래밍 평가의 역사에 접근함에 있어 아이디어의 역사적, 철학적 뿌리를 명확히 설명하였다. 이것은 왜 특정한 긴장이 실제로 나타나는지를 설명해주며, 적어도 그 이유를 드러내어준다. 바라건대, 우리가 프로그램 평가를 뒷받침하는 동기motivation를 발굴하는 데 성공하여, "적응적이고 유연한 담론을 위한 공간"을 열었기를 바란다(Lingard, 2009, 페이지 627). 부록 1은 이러한 철학적 역사를 요약한 것이다. 우리는 역사적 조사로부터 밝혀질 중요한 요점이라고 보는 것에 대한 성찰로 결론을 내리고, 마지막으로 이러한 노력에 비추어 프로그램적 평가를 위한 '다음은 무엇인가'를 제안한다.

We argued that new light would be shed on current assessment practices by interrogating them philosophically. In approaching the history of programmatic assessment by focusing on the scene of inquiry—the shifting questions, problems, practices and presuppositions of inquirers (Jardine, 2000) —historical and philosophical roots of the idea have been elucidated. This may resolve, or at least, reveal why certain tensions emerge in practice. Hopefully we have succeeded in “excavating the motivations that underpin” programmatic assessment and opened “a space for an adaptive and flexible discourse” (Lingard, 2009, p. 627). Supplementary figure 1 summarizes this philosophical history. We conclude by offering some reflections on what we see as important points to emerge from our historical probing, and finally suggest ‘what next’ for programmatic assessment in light of this endeavour.

 

관점적 의미
Perspectival implications

우리는 철학적 궤적을 추적하여 프로그램 평가의 궤적을 형성하는 전환되고 암묵적인 주장을 끌어내려고 시도했다. 우리는 개념적이고 방법론적인 주장을 주로 생각하고 입증하는 방법으로서 철학적 가정이 어떻게 변화해 왔는지를 강조해 왔다. 이는 프로그램 평가의 특정한 긴장, 모순, 취약점뿐만 아니라 [인지된 이익]이 프로그램 평가에서 나타날 수 있는 이유를 밝힌다. 이러한 문제들 중 몇 가지는 [어떤 존재론적, 인식론적 우위를 취하느냐]에 따라 발생한다. 간단히 말해서, 이 관점주의perpectivist 렌즈(Pearce, 2013)는 [다른 철학적 입장이 다른 해석으로 이어질 수 있고], 또 [다른 해석을 이끌어 낼 수 있다]는 것을 의미한다. 이에 대한 세 가지 예를 제시합니다.
We have attempted to draw out the shifting, implicit arguments shaping the trajectory of programmatic assessment by tracing its philosophical trajectory. We have highlighted how philosophical assumptions have shifted mainly as a way of thinking about and substantiating conceptual and methodological arguments. This illuminates why perceived benefits, as well as certain tensions, contradictions and vulnerabilities may appear in programmatic assessment. Several of these issues arise depending on which ontological and epistemological vantage point is taken. In short, this perspectivist lens (Pearce, 2013) means that different philosophical positions may and will lead to different interpretations. We offer three examples of this:

  • 일부는 프로그램 평가에서 의사결정에 편향 경향이 있다고 생각할 수 있다. 픽셀 은유는 강력하지만 정보의 포화에 도달하면 픽셀이 고정되는 경향이 있다. 일단 평가자들이 그 이미지가 모나리자(또는 고군분투하는 학생)라는 것을 알 수 있다면, 이 단일하고 고정된 그림은 이 학생과 관련된 미래의 결정에 영향을 미칠 것이다. 이러한 종류의 [편견과 평가의 공정성 문제]는 정확히 심리측정학적 접근법이 다루려고 했던 것이다. 이것은 평가에서 철학적 전제가 진화함에 따라, 만약 이전 위치의 강점에 주의를 기울이지 않는다면 이전 개념의 특징은 사라질 수 있다는 것을 예시한다.
    Some may consider that there is a propensity for bias in decision-making in programmatic assessment. Although the pixel metaphor is powerful, pixels have a tendency to become fixed when saturation of information is reached. Once assessors can see that the image is the Mona Lisa (or a struggling student), this unitary and fixed picture will influence future decisions regarding this student. These kinds of biases and issues of fairness in assessment are precisely what psychometric approaches were meant to deal with. This exemplifies that as philosophical presuppositions evolve in assessment, features of previous conceptions may become lost if care is not taken to build upon the strengths of earlier positions.
  • 평가 데이터 포인트의 시간적 구성요소로 인해 발생하는 어려움이 있다. 학습은 시간에 따라 변화하고 지식, 기술, 역량의 개발은 일관적이지도 선형적이지도 않다. 이것은 당신의 철학적 관점에 따라 프로그래밍 방식의 접근에서 또 다른 긴장입니다. 일부는 측정 및 후기 실증주의적 사고방식으로 문제에 접근하는 경우 이질적인 형태의 데이터 집계를 방어 가능성으로 볼 수 있는 반면, 다른 일부는 구성주의/인터프리즘의 위치에서 작업하는 경우 삼각측량 과정을 접근법의 강점으로 볼 수 있다. 이는 평가가 그 자체로 관점 프로세스이며, 이는 다른 문제를 야기한다는 것을 강조합니다.
    There are challenges made by the temporal component of assessment datapoints. Learning changes with time, and the development of knowledge, skills and competencies are neither consistent nor linear. This is another tension in a programmatic approach, depending on your philosophical outlook. Some may see the aggregation of disparate forms of data as an ersatz defensibility if they approach the problem with a measurement and/or post-positivist mindset, while others will see this process of triangulation as a strength of the approach if they are working from the position of constructivism/interpretivism. Again, this highlights that assessment is itself a perspectival process, which brings other challenges.
  • 심리측정적 렌즈를 통해 볼 때, 프로그램 평가는 [구인의 표현] 및 [구인의 무관련성]과 같은 문제와 관련하여 많은 함정을 가지고 있으며, 이는 교육 측정 분야에서 계속 논의되고 있다(Newton, 2020). 그러나 프로그램 평가의 제자들은 이것이 의학 교육에서 평가에 대한 잘못된 접근이라고 주장하며, 그러한 심리학적 정보에 근거한 입장을 폐쇄하기 위해 구성주의적 은유적 전략을 사용할 것이다. 우리가 여기서 설명하려는 것은 다양한 철학적 전제가 공동체를 위한 긴장을 조성하고 있다는 것이다.
    When viewed through a psychometric lens, programmatic assessment has many pitfalls in relation to issues such as construct representation and construct irrelevance, which continue to dominate discussions in educational measurement circles (Newton, 2020). But disciples of programmatic assessment will utilise constructivist metaphorical strategies to shut down such psychometrically informed positions, arguing that this is a misguided approach to assessment in medical education. What we are attempting to elucidate here is that divergent philosophical presuppositions are creation tensions for the community.

우리는 위의 주장들 중 어느 것도 지지하거나 어느 한쪽 편을 드는 것이 아닙니다. 우리는 단지 철학적 전제가 왜 그렇게 중요한지를 강조하려고 시도하고 있을 뿐이다. 탐구 현장에서 함축된 의미와 실무자들이 내리는 결정은 역사적, 지역적 맥락에 위치한 철학적 전제에 의해 주도되는 관점일 것이다. 다른 이들은 [평가에서 발생하는 긴장에 대응하는 방법]이 [평가 정책과 실천의 운명을 결정한다]고 언급했다(Govaerts et al. 2019). 우리는 대화와 비판적 성찰을 통해 정보에 입각한 철학적 결정과 행동이 이루어질 수 있다는 희망에서 어떤 입장을 구독하기 전에 철학적 전제가 단순히 명시된다는 것을 비슷하게 지지한다.
We are not advocating any of the above arguments or taking any sides. We are merely attempting to highlight why philosophical presuppositions are so important. The implications in the scene of inquiry, and decisions that practitioners take, will be perspectival—driven by philosophical presuppositions, situated in historical and local contexts. Others have noted that the way we respond to tensions in assessment determines the fate of assessment policy and practice (Govaerts et al. 2019). We similarly advocate that philosophical presuppositions are simply made explicit before subscribing to a position in the hope that through dialogue and critical reflection, informed philosophical decisions and actions can be made.

 

효용과 실용주의 기반에 대한 재고
Rethinking utility and its pragmatist foundations

[효용utility]의 개념은 (비록 그것의 정확한 표현이 시간이 지남에 따라 변화하는 것처럼 보이긴 하나) 프로그래밍적 사고를 관통하는 핵심 실타래이다. 프로그램 평가는 [평가의 실용성]이라는 개념에 기초했으며, 이는 실제 실행 중인 실용주의의 예시화인 것으로 보인다. 이러한 맥락에서 실용주의가 의미하는 바는 명확하게 표현되지 않았다. 이 외에도 [효용성]은 방법론적인 초점이 되었다. 평가 철학을 접근함에 있어서 [평가에서 목적을 명확하게 표현]하고, [평가 행위의 실질적인 정당성을 요구]하는 것이다
The notion of utility is a key thread that runs through programmatic thinking, although its precise manifestation appears to shift over time. Programmatic assessment was founded on the notion of utility in assessment, which appears to be an instantiation of pragmatism in action. Although what pragmatism means in this context has not been clearly articulated. More than this, utility has become a methodological focus; a way of approaching assessment philosophically by requiring the clear articulation of purpose in assessment and a substantive justification of assessment practice (Pearce, 2020; Tavares et al. 2019).

우리는 [철학적 관점]에 관한 일부 논쟁이, 특히 방법론적 선택의 질문 및 정당화와 관련해서는, 프로그램적 담론으로 들어갔다는 것을 인정한다. 예를 들어, 진행 또는 역량 위원회 심의에 정보를 제공하기 위해 더 다양한 평가 데이터를 수집하고 수집해야 하는 요건과 같은 것이다. 그러나 이는 해석주의나 구성주의 원칙에 대한 명시적인 논의에 앞서 제안되었다. 근본적인 가정과 철학적 헌신에 대한 논의는 연구원들이 거의 없거나 우선순위로 다루지 않았다.

We accept that some debate regarding philosophical outlooks has entered programmatic discourse, especially in relation to the interrogation and justification of methodological choices. For example, with the requirement to collect and collate more diverse assessment data to inform progression or competence committee deliberations. However, this was suggested prior to any explicit discussion of interpretivist or constructivist principles. Discussions about underlying assumptions and philosophical commitments have been almost absent or not taken up by researchers as a priority.

철학적 전제를 주의 깊게 설명할 필요성
The need to carefully elucidate philosophical presuppositions

HPE에서 프로그램 평가를 채택하는 경우, 우리는 철학적 고려가 없는 채택을 경고한다. 실무자는 어떤 가정과 기본적인 약속이 작용하는지 정확히 알지 못하더라도(또는 알 필요조차 없을지도 모른다) 프로그래밍 방식의 평가의 효용을 활용할 수 있다. 그러나 이는 실무에서 철학적 입장을 흐리게 할 수 있고, 진보 위원회가 탐색해야 할 복잡한 예시로 이어질 수 있다. 앞으로 나아가야 하는 방향은, [프로그램 평가의 채택자]들이 그들이 가지고 있는 [철학적 전제를 신중하게 설명]하고 [평가 상황에 대한 그러한 관점을 정당화하는 것]이다. 전반적으로, 우리는 프로그램 평가 이론과 실천의 철학적 동인에 더 많은 관심을 요구하고, 그것들이 명시되어야 할 필요성을 강조한다.
In cases where programmatic assessment is being adopted in health professions education, we caution against its adoption devoid of philosophical considerations. Practitioners are able to leverage the utility of programmatic assessment without knowing (or even needing to know) exactly what assumptions and underlying commitments are at play. But this can lead to a blurring of philosophical positions in practice, and convoluted instantiations for progression committees to navigate. The way forward would be for adopters of programmatic assessment to carefully elucidate the philosophical presuppositions they hold and to justify such perspectives for the assessment context. Overall, we call for more attention to the philosophical drivers of programmatic assessment theory and practice, and stress the need for them to be made explicit.

평가 경계의 모호함
The blurring of assessment boundaries

프로그램 평가의 창립자founders들이 [교수 설계와 평가를 혼합한 것]은 현명한 조치였다. 평가의 영향을 고려하지 않고 교육이 부드럽게 흘러갈flow 수 있다고 제안하는 것은 어리석은 일일 것이며, 실제로 가능한 한 개별화된 평가를 할 수 있는 강력한 사례가 있다. 그러나, 특히 이것이 문제가 될 수 있음을 시사하는 인접 연구를 고려할 때, 이러한 [이중적 목적dual purpose]은 [프로그래밍 평가의 가시thorn]가 될 수 있다(Duitsman 등, 2019; Heenman 등, 2015; Tavares 등, 2020). 그럼에도 불구하고, 프로그래밍 방식의 평가는 전통적인 평가 경계를 명확하게 모호하게 하고 연구자와 교육자들이 평가가 이루어지는 더 넓은 맥락을 고려하도록 강요했다.
The blending of instructional design and assessment by the founders of programmatic assessment was a smart move. It would be foolish to suggest that education can flow without considering the impact of assessment, and in practice there is a strong case to be made for individualizing assessment where possible. However, it may be that this dual purposing is a thorn in the side for programmatic assessment, especially given adjacent research that suggests this may be problematic (Duitsman et al., 2019; Heeneman et al., 2015; Tavares et al., 2020). Regardless, programmatic assessment has clearly blurred traditional assessment boundaries and forced researchers and educationalists to consider the wider context in which assessment takes place.

다음은 프로그램 평가를 위해 어디로 가야 하나요?
Where to next for programmatic assessment?

우리는 잠재적으로 생산적인 미래 연구 방법 및 프로그램 평가를 위한 개발 기회에 대한 몇 가지 제안으로 마무리하기를 원하지만, 프로그램 평가를 위한 미래 궤적에 대해 추측하고 싶지 않다. 다음은 다음과 같습니다.

We don’t wish to speculate as to what the future trajectory holds for programmatic assessment, although we would like to finish by making some suggestions regarding some potentially productive future research avenues and development opportunities for programmatic assessment. These are:

(i)프로그래밍 평가 및 실제로 일반적인 평가에서 근본적인 철학적 입장에 대한 더 많은 조사를 장려한다.
(i)
to encourage more probing of underlying philosophical positions in programmatic assessment, and indeed, in assessment in general;

(ii)프로그래밍 평가를 제정할 때 실무자가 가정 및 약속을 보다 명확하게 하도록 권장한다.
(ii)
to encourage practitioners to make assumptions and commitments more explicit when enacting programmatic assessment;

(iii)위에 언급된 이중 목적 때문에 발생하는 잠재적 긴장을 해결한다.
(iii)
to resolve the potential tension that has arisen due to the dual purposing noted above; and

(iv)세심하게 고려되고 강력하게 표현된 철학적 실용주의가 보건 직업 교육의 프로그램적 평가를 위한 최선의 방법일 수 있음을 시사한다.
(iv)to suggest that a carefully considered and robustly articulated philosophical pragmatism may be the best way forward for programmatic assessment in health professions education.

 

 

 

 


Adv Health Sci Educ Theory Pract. 2021 Oct;26(4):1291-1310.

 doi: 10.1007/s10459-021-10050-1. Epub 2021 Apr 24.

A philosophical history of programmatic assessment: tracing shifting configurations

Affiliations collapse

Affiliations

1Tertiary Education (Assessment), Australian Council for Educational Research, 19 Prospect Hill Road, Camberwell, VIC, 3124, Australia. jacob.pearce@acer.org.

2The Wilson Centre and Post-MD Education. University Health Network and University of Toronto, Toronto, ON, Canada.

PMID: 33893881

DOI: 10.1007/s10459-021-10050-1

Abstract

Programmatic assessment is now well entrenched in medical education, allowing us to reflect on when it first emerged and how it evolved into the form we know today. Drawing upon the intellectual tradition of historical epistemology, we provide a philosophically-oriented historiographical study of programmatic assessment. Our goal is to trace its relatively short historical trajectory by describing shifting configurations in its scene of inquiry-focusing on questions, practices, and philosophical presuppositions. We identify three historical phases: emergence, evolution and entrenchment. For each, we describe the configurations of the scene; examine underlying philosophical presuppositions driving changes; and detail upshots in assessment practice. We find that programmatic assessment emerged in response to positivist 'turmoil' prior to 2005, driven by utility considerations and implicit pragmatist undertones. Once introduced, it evolved with notions of diversity and learning being underscored, and a constructivist ontology developing at its core. More recently, programmatic assessment has become entrenched as its own sub-discipline. Rich narratives have been emphasised, but philosophical underpinnings have been blurred. We hope to shed new light on current assessment practices in the medical education community by interrogating the history of programmatic assessment from this philosophical vantage point. Making philosophical presuppositions explicit highlights the perspectival nature of aspects of programmatic assessment, and suggest reasons for perceived benefits as well as potential tensions, contradictions and vulnerabilities in the approach today. We conclude by offering some reflections on important points to emerge from our historical study, and suggest 'what next' for programmatic assessment in light of this endeavour.

Keywords: Assessment; Historical epistemology; History of assessment; Philosophical positions; Programmatic assessment.

평가에서 독소 빼내기: 발달평가의 역할이 있는가? (Med Educ, 2016)
Taking the sting out of assessment: is there a role for progress testing?
Debra Pugh1 & Glenn Regehr2

 

 

평가의 의도하지 않은 결과
The unintended consequences of assessment

의대 교육에서 지식과 임상 기술에 대한 평가는 역량에 대한 판단에 자주 사용된다. 이러한 평가의 목표는 능력의 정확한 추정치를 얻는 것이지만, 평가의 의도하지 않은 잠재적 결과가 있다. 예를 들어, 학습(AOL)의 평가 모델에서는 성적을 배정하거나, 학습자를 능력 있는 학습자 또는 능력 없는 학습자(합격 또는 불합격자)로 분류하는 데 중점을 둔다. 이와 같이, 학습자의 관점에서 평가와 관련된 사회적 판단 또는 'sting'으로 인지되는 요소가 있다. 
In medical education, assessments of knowledge and clinical skills are frequently used to make judgements about competence. Although the goal of these assessments is to obtain an accurate estimate of ability, there are potential unintended consequences of assessment. For example, in an assessment of learning (AOL) model, the focus is on assigning grades or categorising learners into competent or not (i.e. pass or fail).1 As such, there is a perceived component of social judgement or ‘sting’ associated with assessment from the learner's perspective.

결과적으로, AOL에 초점을 둠으로써 학습자들이 반드시 배움을 촉진하지는 않으면서, 더 높은 시험 점수만을 얻는 노력 쪽으로 방향을 잡을 수 있다는 점에서 학습자들에게 긴장감을 조성한다. 따라서 시험 환경에 의해 야기되는 내재적 압력은 원치 않는 행동을 초래할 수 있으며, 이는 깊은 이해(예: 주입식 또는 암기)를 방해하는 공부 습관을 채택하는 것에서부터 노골적인 부정행위에 이르기까지 다양하다. 비록 그 차이가 미묘해 보일지 모르지만, 어떤 사람이 그 내용을 이해하는 목표보다는 시험에 합격하는 것을 목표로 공부할 때, 학습에 상당한 영향을 미칠 수 있다. 예를 들어, 연구는 [벼락치기 학습]이 [간격 학습]과 비교할 때 자료를 장기간 보존하는 데 덜 효과적이라는 것을 입증했다. 평가 형식은 또한 학습에 영향을 미칠 수 있는데, 학생들이 [저차원의 기술lower-order skills]을 평가하도록 설계된 시험에 대해 보다 피상적인 접근 방식을 사용하여 (평가 형식을 기반으로) 공부 전략을 변경하는 것으로 나타났기 때문이다.  
As a result, the focus on AOL creates a tension for learners in that they may be oriented more toward efforts that result in higher test scores without necessarily promoting learning. The inherent pressures created by a testing environment can therefore lead to unwanted behaviours, which may range from adopting study habits that hinder deep understanding (e.g. cramming or memorising by rote) to outright cheating. Although the difference may seem subtle, when one approaches studying with the goal of passing a test rather than the goal of understanding the material, there can be a significant influence on learning. For example, studies have demonstrated that cramming is less effective at leading to long-term retention of material when compared with spaced learning.2 The format of an assessment can also have an influence on learning, as students have been shown to alter their strategy for studying based on the format of an assessment, using more superficial approaches for tests thought to be designed to assess lower-order skills.3, 4

AOL 모델에서, 학습자에게 [평가]는 극복해야 하는 장애물로 취급될 가능성이 더 높다. 따라서 일정 기준(benchmark)에만 도달하면, 학습자가 취약 영역을 다시 검토하도록 하는 인센티브가 거의 없는 경우가 많습니다. 한 사람이 매우 높은 점수를 받든, 아주 약간만 받아들일 수 있는 점수를 받든 상관없이 미리 정의된 커트 점수를 성공적으로 충족시키는 한, 학습자에게 주는 메시지는 그러한 결함들이 상대적으로 미미하며 앞으로 나아갈 준비가 되어 있다는 것이다. 설령 학습자가 개선하고자 하는 동기가 있더라도, 시험 후에 제공되는 피드백은 종종 학습을 안내할 만큼 충분히 구체적이지 않다. 
In an AOL model, assessment is more likely to be treated by the learner as an obstacle that one must overcome. Thus, there is often little incentive for learners to revisit areas of weakness once the benchmark has been reached. As long as one is successful in meeting a predefined cut-score, regardless of whether one receives a very high score or only a marginally acceptable score, the message to learners is that those deficiencies are relatively insignificant and that they are ready to move on. Even if learners were motivated to improve, the feedback provided after a test is often not specific enough to guide learning.

아마도 더 우려되는 사실은 시험 중 다른 학생의 답안을 직접 복사하고 허가되지 않은 자료에 접근하는 행동을 포함하여 의대생들 사이에 [부정행위]가 널리 퍼져있다는 것이 여러 연구에서 입증되었다는 사실이다. 심지어 교육자들도 평가 과정을 회피하기 위해 부정직한 행동을 하고 싶은 유혹을 받을 수 있는데, 이는 표준화 시험의 조직적 부정행위와 관련된 혐의로 최근 미국에서 11명의 교사를 유죄판결을 받은 것에서 입증된다.10
Perhaps more concerning is the fact that several studies have demonstrated that cheating amongst medical students, including such behaviours as directly copying answers from another student and accessing unauthorised materials during a test, is widespread.5-9 Even educators may be tempted to engage in dishonest behaviour to circumvent assessment processes, as evidenced by the recent conviction of 11 teachers in the USA on charges related to systematic cheating on standardised tests.10

평가가 학습자의 역량을 보장하는 데 중요한 역할을 하는 것은 분명하지만, 이러한 [파괴적 행동]은 현재의 평가 문화가 실제로 학습이 촉진하려고 하는 바로 그 학습을 저해하고 있는지 여부를 의심하게 할 수 있다. AOL 모델과 대조적으로, 학습을 위한 평가 모델(AFL)은 [개선을 촉진하기 위해 학습자에게 피드백을 제공하는 기회로 평가를 사용]하는 것에 초점을 맞추고 있습니다. 동의어는 아니지만, AOL은 일반적으로 '총괄' 평가를 지칭하는 반면, AFL은 일반적으로 '형성' 평가를 지칭한다. 본 논문의 목적상

  • '총괄'이라는 용어는 성과를 강조하는 고부담 평가(예: 등급)를 지칭하는 반면,
  • '형성'이라는 용어는 피드백 제공을 우선시하는 저부담 평가의 맥락에서 사용될 것이다.

Although assessment clearly plays an important role in ensuring the competence of learners, these subversive behaviours may lead one to question whether or not the current assessment culture is actually undermining the very learning that it is purportedly trying to promote. By contrast with the AOL model, an assessment for learning model (AFL) focuses on using assessment as an opportunity to provide feedback to learners to promote improvement.11 Although not synonymous, AOL generally refers to ‘summative’ assessment, whereas AFL generally refers to ‘formative’ assessment. For the purposes of this paper,

  • the term summative will refer to high-stakes assessments that emphasise achievement (e.g. grades), whereas
  • the term formative will be used in the context of lower-stakes assessments that prioritise the provision of feedback.

그러나 이러한 평가 형태 사이에 상당한 중복이 있으며 둘 다 AOL 또는 AFL 모델에서 사용될 수 있다는 점에 유의해야 한다.
However, it is important to note that there is considerable overlap between these forms of assessment and both can be used in either AOL or AFL models.

AFL 모델에서는 판단보다는 성장의 기회 창출에 초점을 두는 것(즉, 최소 역량보다는 우수성을 강조하는 것)으로 이동하기 때문에, AOL 모델에서 주로 보이는 의도하지 않은 결과의 일부를 완화할 수 있는 잠재력을 가지고 있다. AFL 모델에서 평가 프로그램은 모든 개인(고성능이든 저성능이든)이 지속적인 개선을 위해 노력하는 것을 목표로 설계될 수 있다. 이런 의미에서 시험은 학습 도구가 되므로 흔히 사용되는 용어인 시험 강화 학습이 된다.
An AFL model has the potential to mitigate some of the unintended consequences associated with an AOL model because of the shift from a focus on making judgements to a focus on creating opportunities for growth (i.e. emphasising excellence rather than minimal competence). In an AFL model, a programme of assessment can be designed with the goal of challenging every individual (whether high or low performing) to strive for continuous improvement. In this sense, tests become learning tools, hence the often-used term test-enhanced learning.12

 

발달시험의 역할
The role of progress testing

평가의 초점을 AOL에서 AFL로 바꾸려면, 형성적 또는 총괄적 이유로 학습자의 강점과 약점을 완전히 파악하기 위해 많은 도구를 통합하는 [평가 프로그램]이 필요하다. AFL 모델에서 사용하기 위해 상당한 관심을 끌고 있는 것으로 보이는 한 가지 도구는 [발달시험]이다. 설계상, 발달시험의 청사진은 광범위한 컨텐츠 도메인(즉, 프로그램에 필요한 지식의 전체 영역)에 기초한다. 시험은 진행 상황을 감시하기 위해 훈련의 다른 단계에 있는 학습자에게 반복적으로 시행된다.13

  • 예를 들어, 일부 의료 프로그램은 전체 학부 커리큘럼에 기초한 필기 진도 시험을 전체 학생 단체에 정기적으로 시행한다(예: 1년에 4회).
  • 유사하게, 최소한 한 곳의 전공의 프로그램은 졸업에 필요한 훈련의 목표에 기초한 연간 임상 기술 진도 시험을 프로그램의 모든 전공의에게 제공한다.
  • 많은 연구들이 지식 및 임상 기술의 성장을 도표화하고 피드백 제공을 허용하기 위해 발달시험이 사용될 수 있다는 것을 입증했다. 

Changing the focus of assessment from AOL to AFL will require a programme of assessment that incorporates many tools in order to get a complete picture of learners’ strengths and weaknesses for both formative and summative reasons.1 One tool that appears to be garnering significant interest for use in an AFL model is the progress test. By design, the blueprints of progress tests are based on a broad content domain (i.e. the complete domain of knowledge required for a programme). The tests are administered repeatedly to learners at different stages in their training in order to monitor their progress.13 

  • For example, some medical programmes administer a written progress test based on the entire undergraduate curriculum to the entire student body at regular intervals (e.g. four times per year).14, 15
  • Similarly, at least one residency programme offers, to all residents in the programme, an annual clinical skills progress test based on the objectives of training required for graduation.16
  • A number of studies have demonstrated that progress tests can be used to chart growth of knowledge and clinical skills,14-18 and allow for the provision of feedback.19

 

발달시험은 단순히 진행률을 측정하는 것 이상의 [실질적인 이점]을 가지고 있는 것으로 보입니다. 서면 진도 시험의 사용은 국가 면허 시험의 성과 향상과 관련이 있는 반면, 발달시험으로 사용되는 객관적인 구조화된 임상 시험(OSCE)은 나중에 임상 기술의 국가단위 시험에 fail할 위험에 있는 전공의를 식별하는 데 유용한 것으로 나타났다. 
Progress tests appear to have tangible benefits beyond those of simply measuring progress. The use of written progress tests has been linked to improved performance in a national licensure examination,20 whereas objective structured clinical examinations (OSCEs) used as progress tests have been shown to be useful in identifying residents at risk of subsequently failing a high-stakes national examination of clinical skills.21

그러나 무엇보다도 [진행률 시험의 포괄성]과 [상대적으로 저부담 시험적인 특성]이 결합되어 AOL이 학습에 미치는 파괴적 영향을 완화시키는 데 도움이 될 수 있다는 점이 중요하다. 예를 들어, 평가되는 내용에 제한이 없기 때문에, 표적 학습, 암기, 벼락치기, 그리고 시험에 가르치는 것과 같은 전략은 특별히 유용하지 않을 것 같다. 이것은 더 깊은 학습 전략을 촉진하는 것으로 보인다. 또한 AOL 모델에서는 시험 보안 문제로 인해 종종 [의미 있는 피드백]이 배제되는데, 문제은행이 충분히 크다면 피드백도 제공될 수 있다. 따라서, 발달시험은 극복해야 할 장애물이 아니라 중요한 학습 기회가 될 가능성이 있다. 학습자가 이러한 방식으로 발달시험을 보도록 설득할 수 있다면, 발달시험을 사용하여 평가에서 일부 '독소'를 제거하는 데 도움이 될 수 있습니다.
Perhaps more importantly, however, the comprehensiveness of progress tests, coupled with the relatively low-stakes nature of the format, may serve to mitigate some of the subversive effects of AOL on learning. For example, because there is no functional limit on the content being assessed, strategies such as targeted studying, memorisation, cramming and teaching to the test are unlikely to be particularly useful. This appears to promote deeper learning strategies.14, 22 Additionally, meaningful feedback, which is often precluded in an AOL model due to test security issues, can be provided with limited risk as long as the item bank is sufficiently large. Thus progress tests have the potential to be important learning opportunities rather than hurdles to overcome. If learners can be persuaded to view progress tests in this way, then perhaps progress tests can be used to help take some of the ‘sting’ out of assessment.

평가가 학습을 촉진하는 방법
How assessment drives learning

'평가가 배움을 이끈다'는 격언은 아마도 많은 진실을 담고 있을 것이다. 그러나 평가를 학습 도구로 전략적으로 사용하려면 평가를 촉진하는 방법을 고려해야 한다. 학습에 대한 평가 효과는 다음의 세 단계로 나눌 수 있다. 

  • 시험 전(즉, 시험 인센티브 학습),
  • 시험 그 자체(즉, 시험이 학습으로 직접 연결됨) 및
  • 시험 후(즉, 시험이 학습으로 이어지는 후 제공되는 피드백)

The aphorism ‘assessment drives learning’ probably holds much truth. However, if one is to use assessment as a learning tool strategically, then one must consider how it promotes learning. The effects of assessment on learning can be divided into three phases:

  • pre-test (i.e. tests incentivise learning),
  • pure-test (i.e. tests directly lead to learning) and
  • post-test (i.e. the feedback provided after a test leads to learning).23 

시험 전 학습
Pre-test learning

학습에 대한 [시험 전 효과]는 시험의 [간접 효과]라고도 하며, 시험 예상에 의해 제공되는 외적 동기를 의미한다. 즉, 임박한 시험으로 인한 압박감은 학습자에게 학습 동기를 부여하고 시험할 자료를 통합된 방식으로 학습하려는 시도를 할 수 있다. 이런 점에서는, 총괄시험조차도 명백한 검색 목적을 위해 자료를 학습하려는 의도적인 노력을 장려함으로써 학습에 긍정적인 영향을 미칠 수 있다. 그러나 학생들이 학습에 접근하는 방법은 피상적인 접근(예: 깊은 이해보다는 암기)을 촉진하는 경우 시험에 의해 부정적으로 영향을 받을 수 있다. 예를 들어, 발달시험의 자주 언급되는 이점 중 하나는 주입식 공부보다 지속적인 공부를 장려한다는 것이다. 간격 학습과 대량 실습을 비교한 180편 이상의 논문에 대한 검토가 간격 학습이 대량 실전보다 우수하다는 견해를 뒷받침했기 때문에 이 방법이 유용할 수 있다.24

The pre-test effects on learning, also termed the indirect effects of testing, refer to the extrinsic motivation provided by the anticipation of being tested. In other words, the imminent pressure caused by an impending test may provide learners with an incentive to study and attempt to learn the material to be tested in a consolidated way. In this sense, even summative testing may have a positive influence on learning by encouraging intentional efforts to learn material for the explicit purposes of retrieval. However, the way in which students approach learning may be negatively affected by a test if it promotes a superficial approach (e.g. memorising by rote rather than deeper understanding). For example, one of the often-cited benefits of progress testing is that it encourages continuous studying over cramming. This may be valuable because a review of over 180 papers comparing spaced versus massed practice supported the view that spaced learning is superior to massed practice.24

종합 평가의 사전 시험 효과를 위한 유용한 이론적 모델이 Cilliers 등에 의해 개발되었다. 이 모델은 [평가 전 학습 활동]에 영향을 미치는 [영향의 두 가지 잠재적 원천]이 있다고 가정한다.

  • 과제 요구(예: 강의의 과제 유형 및 단서)와
  • 시스템 설계(예: 평가의 임박성 및 일반적인 작업 부하)

이는 뒤이어 다음에 영향을 미친다.

  • 인지 처리
  • 메타인지 조절 활동(예: 인지된 대리인 및 대인관계 요인)

A useful theoretical model for the pre-test effects of summative assessment was developed by Cilliers et al.25 This model postulates that there are two potential sources of impact that influence pre-assessment learning activities:

  • task demands (e.g. task type and cues from lecturers) and
  • system design (e.g. imminence of assessment and prevailing workload).

These in turn influence

  • cognitive processing and
  • metacognitive regulation activities (e.g. perceived agency and interpersonal factors).

예를 들어, 시험이 임박했고 학생들이 시험이 매우 위험한 사건으로 인식한다면, 그들의 목표는 그들이 평소에 선호했던 학습 접근법이 아니더라도, 공부할 때 벼락치기나 암기와 같은 낮은 수준의 인지 전략을 채택할 수 있다. 시험 형식이 연구 행동에 어떤 영향을 미치는지에 대한 연구가 이를 뒷받침하는 것으로 보인다. 예를 들어, 학생들은 선택-응답 대 구성-응답 형식 및 파트-과제 대 전체-과제 OSCE를 사용하여 평가될 것을 알 때 학습에 대해 더 피상적인 접근법을 사용하는 것으로 나타났다.

For example, if an examination is imminent and students perceive it to be a high-stakes event, they may adopt lower-order cognitive strategies when studying, such as cramming or memorising by rote, even if that is not their usual preferred approach to learning, because their goal is to maximise their chances of success. Studies about how the test format influences study behaviour would seem to support this. For example, students have been shown to use more superficial approaches to learning when they know they will be assessed using selected-response versus constructed-response formats3 and part-task versus whole-task OSCEs.4

이 프레임워크는 종합 평가를 위해 개발되었지만, 이론적으로 발달시험의 경우에도 유사한 종류의 영향 원인(예: 과제 유형, 평가 기준 등)이 학습 접근법에 영향을 미칠 것이라고 추측할 수 있다.

  • 이러한 추측을 뒷받침하기 위해, McMaster의 학생들의 학습 스타일을 학습 스타일(암기 대 개념 학습)을 평가하려는 [Mitchell의 인지 행동 검사]를 사용하여 연구한 결과, 발달시험이 도입되었을 때 암기보다는 더 깊은 학습 전략을 계속 사용한 것으로 밝혀졌다.
  • 마찬가지로, 림버그 대학의 진행률 시험 성과 연구는 의미 중심의 연구 접근법의 사용이 진행률 시험 점수와 긍정적인 상관관계가 있는 반면, 암기력이나 얕은 처리를 사용하는 것은 점수와 부정적인 상관관계가 있다는 것을 보여주었다.

Although this framework was developed for summative assessment, one could speculate that, for progress testing, similar sources of impact (e.g. task type, assessment criteria, etc.) would theoretically influence approaches to learning.

  • In support of this speculation, when McMaster's students’ learning styles were studied using Mitchell's cognitive Behavior Survey, which attempts to assess learning style (memorisation versus concept learning), it was found that they continued to use deeper learning strategies rather than memorisation when progress tests were introduced.1426 
  • Similarly, a study of performance on progress tests at Limburg University demonstrated that the use of a meaning-oriented study approach was positively correlated with progress test scores, whereas the use of memorisation or shallow processing was negatively correlated with scores.22

물론, 발달시험은 [시험 전 학습의 'consolidation' 효과]를 훼손할 위험이 있는 것도 사실이다. Van Berkel 등이 다른 시험 형식과 관련된 연구 행동을 비교했을 때, 학생들은 블록 시험을  공부의 동기로 보았다. 하지만 발달시험은 (기출문제를 보는 것을 빼면 학습의 유인이) 아니었다. 

  • 어쩌면 어떻게 전체 교과과정의 시험을 위해 공부하는 것에 접근할지 아는 것이 너무 어렵기 때문일지도 모른다.
  • 또는 어쩌면 진행 테스트가 학습자들에 의해 중요하게 인식되지 않기 때문일 지도 모른다.

Of course, there is a risk that progress testing could actually undermine the value of the ‘consolidating’ effects of pre-assessment learning. When van Berkel et al.22 compared study behaviours in relation to different test formats, students viewed block tests, but not progress tests, as an incentive to study (other than reviewing old tests),

  • perhaps because it is so difficult to know how one would approach studying for a test of the entire curriculum, 
  • or perhaps because progress tests are not perceived to be important by learners.

또한 시간 경과에 따라 [간격을 둔 시험spaced testing]이 지속적인 학습을 장려할 수 있다는 일부 증거가 있지만, 학습에 대한 이러한 접근법이 항상 시험 점수를 향상시키지는 않을 수 있다. 학생들을 [정기적으로 평가된 그룹(10주 과정 중 세 번)] 또는 [수업이 끝날 때만 평가된 그룹]에 무작위로 배정한 연구에서, [더 자주 평가를 받은 학생들]은 학습 간격을 두고 전체 학습 시간에 69시간을 더 할애했지만, 최종 평가에서 대조군 학생들보다 더 잘하지는 못했다. 사실, 과정 종료 평가 그룹의 학생들은 마지막 주에 훨씬 더 많은 시간을 공부하는 데 쓴다고 보고했는데, 이것은 주입식 학습보다 간격 배움이 더 낫다는 오랜 믿음에 도전할 수 있다. 그러나 간격 학습 접근법의 입증된 이점은 없었지만, 연구는 단기 효과만 조사했기 때문에 간격 학습 그룹에서 장기 보존이 더 나을지는 명확하지 않다.

Moreover, although there is some evidence to suggest that spacing tests over time may encourage continuous study, this approach to learning may not always result in better test scores. In a study in which students were randomised to either a group that was assessed regularly (three times during a 10-week course) or a group that was assessed only at the end of the course, students who underwent more frequent assessments spaced their learning and devoted 69 hours more to overall study time than their peers, but they did no better on a final assessment.27 In fact, students in the end-of-course assessment group reported spending significantly more time studying in the final week, which may challenge the long-held belief that spaced learning is preferable to cramming. However, although there was no demonstrated benefit of a spaced-learning approach, the study only examined the short-term effects, so it is not clear if long-term retention would have been better in the spaced-learning group.

순수 시험 학습
Pure-test learning

다가오는 시험을 예상하고 준비하는 효과 외에도, [시험 행위 자체]가 학습으로 이어질 수 있는데, 이를 [시험 효과]라고 한다. 몇몇 연구들은 시험이 학습의 간접적인 효과 이상으로 직접적으로 학습에 영향을 미치는데 사용될 수 있다는 것을 증명했다. 이것은 부분적으로, [정보를 검색하는 행위]가 [반복적인 공부만 하는 것]과 비교했을 때 학습의 개선을 이끈다는 것을 암시하는 [인출 가설retrieval hypothesis]에 의해 설명될 수 있다. [인출 행위]는 정보를 [향후 인출을 위해 정보를 더 쉽게 접근할 수 있도록 인코딩]하는 데 도움이 되는 듯 하다. 이 현상을 이해하는 데 도움이 되는 유용한 비유는 도서관에 있는 책을 고려하는 것이다. 도서관은 나중에 회수하는 것을 돕기 위해 책을 보관하는 분류 시스템을 채택한다. 만약, 이 시스템을 사용하는 대신에, 책들이 나중에 어떻게 회수될지에 대한 고려 없이 단순히 책꽂이에 놓여진다면, 필요할 때 그것들을 찾는 것이 훨씬 더 어려울 것이다. 마찬가지로, [정보 인출]을 연습할 때, 그것은 뇌가 나중에 액세스하기 위해 [태깅]이나 [인코딩]을 위한 시스템을 만드는 데 도움이 된다.
In addition to the effects of anticipating an upcoming test, the act of testing itself can lead to learning, something known as the testing effect. Several studies have demonstrated that tests can be used directly to influence learning above and beyond the indirect effects of studying.28-31 This may be explained, in part, by the retrieval hypothesis, which suggests that the act of retrieving information leads to improved learning when compared with repeated study alone. It would seem that the act of retrieval helps to encode the information in a way that makes it more accessible for future retrieval.32 A useful analogy to help understand this phenomenon is to consider books in a library. Libraries employ a classification system for shelving books in order to aid later retrieval. If, instead of using this system, books were simply placed on the shelves without consideration of how they would later be retrieved, it would be far more difficult to find them when needed. Similarly, when one practices retrieving information, it helps the brain to create a system for tagging or encoding it for future access.

[시험 효과]는 즉각적인 검색뿐만 아니라 학습된 자료를 최소 몇 달 동안 보존하는 것을 향상시키는 것으로 보입니다. 특히 흥미로운 것은, 시험 효과가 [사실의 보존을 향상]시킬 뿐만 아니라, [지식의 응용을 향상]시킨다는 것인데, 이는 [반복적인 인출]이 더 나은 이해로 이어질 수 있다는 증거를 제공하는 것으로 보인다는 것이다. 
The testing effect appears to not only enhance immediate retrieval, but also the retention of learned material for at least several months.33, 34 What is particularly interesting is that the testing effect seems to lead not only to better retention of facts, but also to improved application of knowledge, providing evidence that repeated retrieval may also lead to better understanding.31, 35, 36

[시험 효과]를 변조modulate하는 것처럼 보이는 중요한 요인들이 있다. 예를 들어 동일한 자료의 반복 시험을 위한 더 많은 기회를 제공하는 것은 학습을 더욱 강화하는 것으로 나타났다. 또한 지식의 인출이 어려울 때 시험 효과가 향상되는 것으로 보인다.  예를 들어, [단순한 정보의 인식]보다는 회상을 필요로하는 [응답 구성constructed-response 형식]을 사용하는 것이다. 이는 부분적으로 [바람직한 어려움 이론]에 의해 설명될 수 있는데, 이는 도전적인 과제가 단순화된 과제보다 더 큰 학습으로 귀결된다는 것을 암시한다.
There are important factors that seem to modulate the testing effect. For example, providing more opportunities for repeated testing of the same material has been shown to further enhance learning.37 The testing effect also seems to be enhanced when the retrieval of knowledge is effortful; for example, by using constructed-response formats that require recall rather than simple recognition of information.38, 39 This may be explained, in part, by the theory of desirable difficulties,32 which suggests that challenging tasks result in greater learning than simplistic tasks.

발달시험은 시험 효과를 촉진하는 데 이상적으로 적합해 보인다.

  • 발달 시험 청사진은 전체 교육과정에 기초하고 반복적으로 관리되기 때문에 학습자를 더 자주 콘텐츠에 노출시켜 [인출을 더 자주 유도함]으로써 시험 효과를 높일 수 있다.
  • 발달 시험은 전형적으로 [선택-응답selected response 형식(즉, 객관식 질문)]을 채택하지만, OSCE와 같이 보다 [어려운 인출을 요구하는 다른 형식도 실현 가능한 것]으로 나타났다. 강화된 인코딩을 통해 테스트 효과를 강화하기 위해 구성된 응답 형식 또는 OSCE 형식의 사용을 증가시키는 사례가 있을 수 있다.
  • [구성-응답constructed-response 형식]은 채점에 더 많은 노력을 필요로 하는 경향이 있지만, 학습의 이점은 할당된 자원의 증가를 정당화할 수 있다.

Progress tests would seem ideally suited for promoting the testing effect.

  • Because progress test blueprints are based on an entire curriculum and are administered repeatedly, they expose learners to more content more often, which should enhance the testing effect by prompting retrieval more frequently.
  • Although progress tests typically employ a selected-response format (i.e. multiple-choice questions), other formats that require more effortful retrieval, including OSCEs, have been shown to be feasible.40 There may be a case for increasing the use of constructed-response or OSCE formats to potentiate the testing effect through enhanced encoding.
  • Although constructed-response formats tend to require more effort to mark, the benefits to learning may justify an increase in allotted resources.

 

테스트 후 학습
Post-test learning

평가가 학습에 영향을 미칠 수 있는 마지막 단계는 피드백이 제공되는 [시험 후]이다. 유의미한 피드백은 메타인지에 영향을 미칠 수 있는 잠재력 때문에 AFL 모델에서 매우 중요하다. 피드백은 강점과 약점이 있는 영역을 강조하는데 도움이 될 수 있으며, 이는 학습자가 학습을 지시하는 데 사용될 수 있습니다. 물론, 의미가 있으려면 피드백이 바른sound 데이터에 기초해야 합니다. 그러한 데이터가 시험 점수의 형태인 경우 시험 자체는 수용가능한 심리측정적 특성(예: 신뢰할 수 있는 점수)을 가져야 한다. 또한 피드백이 상대적인 강점과 약점 영역을 식별하는 형태인 경우, 특정 영역에 초점을 맞추기 위한 권고사항이 의미 있는 '신호'에 기초할 수 있도록 각 영역은 신뢰성을 보장할 수 있는 충분한 표본을 확보해야 한다.

The final phase in which assessment can influence learning is after the test, when feedback is provided. Meaningful feedback is crucial in an AFL model because of its potential to influence metacognition. Feedback can help to highlight areas of strength and weakness, which may, in turn, be used by learners to direct their learning. Of course, in order to be meaningful the feedback must be based on sound data. If those data are in the form of test scores, then the test itself should have acceptable psychometric properties (e.g. scores that are reliable). Further, if the feedback is in the form of identifying areas of relative strength and weakness, then each area should have sufficient sampling to ensure reliability so that recommendations to focus on specific areas are based on a meaningful ‘signal’.

이와 관련하여 발달시험은 신뢰할 수 있는 자료와 학습자에게 풍부한 피드백을 제공하는 자료로 활용될 수 있는 좋은 위치에 있다. 발달시험 후에 학생들에게 제공되는 결과는 종종 [개인의 발달상황에 대한 정보], [강점과 약점의 영역에 대한 요약], 그리고 [다른 학생과의 상대적 비교]를 포함한다. 발달시험은 상대적으로 저부담시험이기 때문에, 학습자들은 학습을 더 안내하기 위해 [발달시험의 사본]을 제공받을 수도 있다. 또한 진도 시험은 학습을 촉진하는 중요한 피드백의 원천으로 사용될 수 있는 국가단위 고부담시험의 저조한 성과를 예측하는 데 유용한 것으로 보인다.
Again, in this regard, progress tests are well positioned to be used as a source of both reliable data and rich feedback for learners. The results provided to students following progress tests are often accompanied by information about individual progress, summaries of areas of strengths and weaknesses,19 and normative comparisons.41 Because of their relatively low-stakes nature, learners can even be provided with copies of their progress tests to further guide their learning.15 Of interest, progress tests also appear to be useful in predicting poor performance in national high-stakes examinations,21, 26 which can be used as an important source of feedback to promote learning.

그러나 피드백을 주는 것은 간단하지 않습니다. 예를 들어, 제공된 피드백의 유형이 중요합니다. 점수나 데이터 제공에 초점을 맞춘 피드백만으로는 학습을 촉진하기에 충분하지 않은 것으로 나타났다. 사실, 성적grade를 제공하는 것은, 그것이 내러티브 코멘트를 동반하더라도, 실제로 학습을 저해할 수 있습니다. 초등학생들에게만 성적, 서술적 논평만 제공하거나 또는 둘 다 제공했던 연구에서, 서술적 평가를 받은 학생들만 유사한 과제에 대해 재시험했을 때 후속적으로 개선되는 것을 보여주었다. 게다가, 피드백이 더 상세할수록, 학생들이 더 많이 배우는 것으로 보인다. 의과대학 예비학생들이 생물의학 지식을 평가하는 자가-온라인 객관식 테스트에 참여했을 때, 정답과 부정확한 옵션에 대한 자세한 설명을 받은 학생들이 정답에 대한 정보만 받은 학생들보다 더 우수한 것으로 나타났다. 어떤 경우에는 시험 보안 문제로 인해서 상세한 피드백을 주기 어려울 수 있지만, 종합 OSCE를 포함하여 학습자에게 더 많은 피드백을 제공하기 위한 최근 혁신적인 노력이 있었다. 

Giving feedback, however, is not a straightforwardly simple process. For example, the type of feedback provided is important. Feedback focused on providing scores or data alone has not been shown to be sufficient to promote learning. In fact, providing grades, even when accompanied by narrative comments, may actually undermine learning. In a study in which grade-school children were provided with either grades alone, narrative comments alone, or both combined, only students who had received narrative comments alone showed a subsequent improvement when retested on similar tasks.42 Further, it appears that the more detailed the feedback, the more likely students are to learn. When pre-medical students participated in a self-administered online multiple-choice test assessing biomedical knowledge, those who received detailed explanations about the correct and incorrect options outperformed those who only received information about the correct answer.43 Although test security issues may preclude detailed feedback in some cases, there have been recent innovative efforts to provide increased feedback to learners, including in summative OSCEs.44

발달시험을 피드백을 제공하는 용도로 쓰는 것이 더 어려운 이유 중 하나는, 학습자들은 [피드백에 현저하게 면역]이 될 수 있기 때문이다. 피드백을 수용하는 중요한 요소는 피드백을 제공하는 소스의 인식된 신뢰도인 것으로 보인다. Telio 등은 이 결과를 설명하기 위한 [교육적 동맹 프레임워크]를 제안했는데, 이 프레임워크에서는 피드백 제공자-수신자 관계와 심리치료사-환자의 관계 사이에 유사점을 도출했다. 이 모델에서, 학습자가 피드백을 받아들이고 내면화하기 위해서는 [피드백을 제공하는 사람과의 인식된 동맹관계]가 있어야 합니다. 이 동맹은 학습자들이 그들의 잠재력을 성취하는 데 필요한 지도와 비판을 받아들이기에 충분히 취약하도록 그들 자신을 도울 수 있다. 하지만, 피드백은 학습에 해로운 영향을 미칠 수 있는 감정적인 영향을 미칠 수 있습니다. 직무에 초점을 맞춘 피드백은 학습에 가장 강력한 영향을 미치는 것으로 보이는 반면, (즉, 칭찬과 처벌의 형태로) 자아를 자극하는invokes the self 피드백은 덜 성공적인 것으로 보인다.49 아마도 자아를 자극하는invokes the self 피드백은 교육적 연대를 위협할 수 있는 사회적 판단을 수반하기 때문일 것이다. 학습자 및 교사, 평가의 형성적 의도를 훼손할 수 있습니다.
As an additional complication of the use of progress tests to provide feedback, it has been suggested that learners can be remarkably immune to feedback.45, 46 An important factor in accepting feedback appears to be the perceived credibility of the source providing feedback.47 Telio et al.48 proposed an educational alliance framework to explain this finding, in which they draw parallels between the feedback provider‒receiver relationship and that of a psychotherapist and patient. In this model, in order for feedback to be accepted and internalised by the learner, there needs to be a perceived alliance with the person providing the feedback. This alliance can help learners to allow themselves to be vulnerable enough to accept the guidance and criticism that is needed to help them achieve their potential. However, feedback can have an emotional impact, which can have detrimental effects on learning. Feedback that is focused on the task appears to have the most powerful influence on learning, whereas feedback that invokes the self (i.e. in the form of praise and punishment) appears to be less successful.49 Perhaps this is because feedback that invokes the self carries with it social judgements that may threaten the educational alliance between learner and teacher, and may undermine the formative intentions of the assessment.

요약
Summary

발달시험의 많은 특징은 바람직한 학습을 강화하는 특성과 잘 일치하는 것으로 보인다.

  • 시험범위는 광범위하기에 주입식 학습을 덜 실현 가능하며, 단순히 좋은 점수를 얻는 것을 목표로 시험에 접근할 때 발생하는 것과 비교한다면, 발달시험이 간접적으로 더 지속적이고 위치적인 학습을 장려할 수 있다.
  • 학습자에게 동일한 자료를 반복적으로 테스트하면 정보 인출을 연습할 수 있습니다.
  • 마지막으로, 발달시험을 통해 수행능력에 대한 자세한 피드백을 제공할 수 있습니다.

Many of the features of progress tests appear to align well with the properties that enhance desirable learning.

  • Broad coverage of material makes cramming less feasible and may indirectly encourage more continuous and situated learning when compared with what occurs when one approaches a test with the goal of simply getting a good grade.
  • Repeatedly testing learners on the same material provides them with opportunities to practise retrieving information.
  • Finally, progress tests allow for the provision of detailed feedback on performance.

그러나 발달시험의 의도하지 않은 잠재적 결과도 고려해야 한다. 만약 학습자들이 그것을 하찮거나 준비하기에 너무 벅찬 것으로 인식한다면, 발달시험은 공부에 dis-incentive적인 것으로 판명될 수 있다. 피드백 제공은 가능하지만, 그러한 피드백이 추가 학습에 의미 있게 통합되도록 보장하는 데는 잘 알려진 복잡성이 있으므로 그러한 피드백의 전달이 정의에 의해 평가되고 통합되는 것을 당연하게 여겨서는 안 된다.

However, one must also consider the potential unintended consequences of introducing progress testing. It is possible that a progress test may prove to be a dis-incentive to studying if learners perceive it as unimportant or too overwhelming to prepare for. Although provision of feedback is possible, there are well-known complexities in ensuring that such feedback is incorporated meaningfully into further learning, so it shouldn't be taken for granted that the delivery of such feedback is by definition valued and incorporated.

문제를 해결하기 위한 유일한 가능한 접근법이 진도 테스트라는 것은 아니다. 우리의 요점은, 오히려, 신중하게 구현될 경우, 발달시험이 AFL 모델에 특히 적합하다는 것이다.
This is not to say that progress tests are the only possible approach to addressing these issues. Our point, rather, is that progress testing, if implemented carefully, is particularly well suited to a model of AFL.

평가를 사용하여 학습을 최적화하는 방법
How to use assessment to optimise learning

비록 문헌들이 AOL과 AFL 사이에 분명한 차이를 이끌어냈지만, 정의가 암시하는 것보다, 사실 두 가지 사이에는 기능적인 중복이 더 많을 수 있다. 즉, 모든 평가는 학생의 현재 학습 상태를 어느 정도 평가하는 데 사용되며, 모든 평가는 추가 학습을 알리고 지원할 수 있는 잠재력을 가지고 있다. 중요한 것은 [교육자의 관점에서 본 시험의 목적]과 [학습자가 시험 목적을 해석하는 방법] 사이에 불일치가 있을 수 있으므로, 학습자 행동에 미치는 영향의 관점에서 AOL과 AFL의 구별은 보는 사람의 눈에 달려 있을 수 있다. 이런 점에서 AOL이 될 것인지, AFL이 될 것인지를 결정하는 것은 [시험 자체의 속성]이 아니라, [교육자와 학습자가 시험의 목적에 대해 추론하는 것]이다. 따라서 이분법은 다소 인위적이며, 주어진 평가 상황에서 AOL과 AFL을 학습자의 마음에 상대적으로 더 배경이나 배경에서 고려하는 것이 더 유용할 수 있다.
Although the literature has drawn clear distinctions between AOL and AFL, it may be that there is more functional overlap between them than implied by the definitions. That is, it is likely that all assessment is used to assess a student's current state of learning to some degree, and all assessment has the potential to inform and support further learning. Importantly, there may also be discordance between the purported purpose of the test from the educator's perspective and how the learners interpret the test's purpose, so from the perspective of its influence on learner behaviour, the distinction between AOL and AFL may be in the eye of the beholder. In this sense, it is not a property of the test itself that determines whether it will be AOL or AFL, but rather the inferences that educators and learners make about the purpose of the test. The dichotomy, therefore, is somewhat artificial and for any given assessment situation it may be more useful to consider AOL and AFL as being relatively more in the foreground or background in the mind of the learner.

따라서 평가에 대한 서로 다른 접근법이 다른 방법보다 더 많은 학습 기회를 촉진할 수 있으며, 따라서 학습에 대한 긍정적인 영향을 극대화하도록 발달시험이 설계될 수 있다는 것에는 의심의 여지가 없다. 위에서 논의한 바와 같이, 진도 시험 설계 시 학습 촉진에 효과적일 수 있는 전략에는 다음이 있다.

  • 구성된 응답 형식 사용,
  • 빈번한 저부담 시험 기회 제공,
  • 간격을 둔 시험
  • 상세한 피드백 제공 

Thus, there is no question that different approaches to assessment may promote opportunities for learning more than others and, as such, progress tests can be designed to maximise their positive influence on learning. As discussed above, strategies that are likely to be effective in promoting learning when designing progress tests include:

  • using constructed-response formats,
  • offering frequent low-stakes testing opportunities,
  • spacing tests and
  • providing detailed feedback.

그러나 AFL을 이용하는 것에는 [자신이 평가되고 있다는 것을 아는 것]의 심리적 결과와 같은 [개념적인 장벽]이 있다는 것을 인식하는 것이 중요하다. 평가가 학습용(예: 형성평가)으로 분류되는 경우에도 학습자는 평가를 학습 기회라기 보다는 성공하기 위해 극복해야 하는 장애물로 볼 수 있다. 50 [모든 평가]는 학습자에게 [자신이 평가의 대상이 되는 고부담 사건]으로 인식될 수 있다. 따라서,

  • AOL을 전경foreground에 두는 것은, AFL 모델의 의도를 훼손할 수 있습니다.
  • AOL을 배경background으로 옮기기 위해서는, 평가의 사회적 의미가 바뀌어야 한다.

However, it is important to recognise that there are conceptual barriers to the use of AFL, such as the psychological consequences of knowing that one is being assessed. Even when assessments are labelled as being for learning (e.g. formative assessment), learners may view them as hurdles that they must overcome in order to succeed, rather than as learning opportunities.50 To the learner, any assessment may be perceived as a high-stakes event where they are being judged. As such,

  • the foreground of AOL may undermine the intentions of an AFL model.
  • In order to move AOL to the background, the social meaning of assessment must be changed.

다시 말해서, 학습자들은 발달시험을 [잠재적으로 징벌적인 결과를 초래할 수 있는 중대한 사건]보다는 [개선의 기회]로 보도록 배울 필요가 있다. 우리는 학생들의 마음속에 [AFL을 전경화하려는 우리의 노력]을 저해하지 않도록 하기 위한 평가 과정의 조건을 만들어야 한다.

In other words, learners need to be taught to view progress tests as opportunities to improve rather than as high-stakes events with potentially punitive consequences. We must create conditions of the assessment process that will ensure that we do not undermine our own efforts to foreground AFL in the minds of our students.

이를 위한 한 가지 방법은, 학습자로 하여금 [수행에 대한 정기적인 피드백을 기대하도록 기대치를 관리하는 것]입니다. 그러나 다시 한 번, 우리가 제공하는 피드백은 학습 기회로서 인식된 가치에 중요한 영향을 미칠 것이다. 따라서 서술적 피드백을 제공하기 위해 (적어도 일정 기간 동안) 발달시험에 대한 등급을 보류하는 것을 고려할 수 있다. 이 접근방식은 특히 잘한 직무에 대해 좋은 등급으로 보상받는 것에 익숙해진 의료 훈련생에게 암묵적으로 종합적인 평가의 성격을 최소화하는 데 도움이 될 수 있다. 대신에 학습자는 진도 테스트의 결과를 [강점과 약점의 잠재적 영역을 탐색]하고, [학습 목표를 달성할 수 있는 기회]로 보도록 권장받을 수 있습니다. 물론, 학습자는 평가 전략에 다르게 반응할 수 있다. [성과 지향적인 학습자]는 총괄평가나 벤치마크를 선호할 수 있는 반면, [숙달 지향적인 학습자]는 학습과 피드백 및 자기 반성을 연계하기 때문에 형성 평가에 더 관심이 있을 수 있다. 그러나, 교육자들이 그들 자신을 증명하기 보다는 학습자의 오리엔테이션을 개선하도록 촉진하는 조건을 설정할 수 있다면, 학습자들은 발달시험에 의해 제공되는 학습 기회를 더 잘 받아들일 수 있을 것이다.

One way to accomplish this is to manage learners’ expectations so that they come to expect regular feedback on their performance. However, again, the feedback that we provide will have an important influence on its perceived value as a learning opportunity. Thus we may consider withholding grades for progress tests (at least for a period of time) in favour of providing narrative feedback. This approach could help to minimise the implicitly summative nature of assessment, especially for medical trainees who have grown accustomed to being rewarded with good grades for a job well done. Learners could instead be encouraged to view their results from the progress tests as opportunities to explore potential areas of strengths and weaknesses and generate learning goals. Of course, learners may respond differently to assessment strategies – those who are performance-oriented may prefer summative assessments or benchmarks whereas those who are mastery-oriented may be more interested in formative assessments because they link learning with feedback and self-reflection.51 However, if educators can set conditions that promote learners’ orientation toward improving rather than proving themselves, then learners may be more likely to embrace the learning opportunities provided by progress tests.

또한 실질적인 문제가 AFL 모델 통합에 장벽으로 작용할 수 있다. 즉, 교육자가 [상당한 시간 제약]에 직면할 경우 (확인된 학습 기회를 다루기 위한) 의미 있는 교정조치 또는 추가 학습 기회를 제공하기 어려울 수 있다.

  • AOL 모델에서 자원은 심각한 어려움에 처한 것으로 확인된 학습자(예: 상대적으로 고부담 시험을 통과하지 못한 학습자)를 위해 예비되는 경향이 있는 반면,
  • AFL 모델에서 [모든 학습자가 개선 방법에 대한 지침을 받을 것]으로 예상된다.

Practical issues may also act as barriers to the incorporation of an AFL model. Namely, educators facing significant time restraints may find it difficult to offer meaningful remediation or additional learning opportunities to address identified opportunities for learning.

  • In an AOL model, resources tend to be reserved for learners who are identified as being in grave difficulty (e.g. those who have failed relatively high-stakes examinations), whereas
  • in an AFL model, all learners are expected to receive guidance on how to improve.

이러한 추가적인 노력은 이미 과로한 의사와 교육자에게 스트레스를 줄 수 있습니다. 학습자가 자신의 학습을 가이드하는 데 필요한 도구를 제공하는 데 집중하는 것은 이러한 압박의 일부를 상쇄하는 데 도움이 될 수 있지만, (발달시험이 제공하는 피드백에 대한 긍정적인 학습 반응을 가장 잘 얻으려면) 교육자로서 이 과정을 가이드할 책임을 무시할 수 없다.
This added effort may stress over-worked physicians and educators. Focusing efforts on providing learners with the tools necessary to direct their own learning may help to offset some of this pressure, but we cannot ignore our responsibility as educators to guide this process if we are to most effectively support a positive learning response to the feedback that the progress test offers.

마지막으로, [학습자에 대한 (최종적) 결정]을 내리기 위해 [발달시험]을 [다른 형성적 평가와 함께 사용할지 여부와 그 방법에 대한 문제]는 매우 현실적인 문제이다. 이러한 평가의 주된 목적이 형성적일 수 있지만, 학습자에 대해 얻을 수 있는 풍부한 정보가 있을 수 있습니다. 모든 평가가 학습만을 '위한' 것일 수는 없다. 학습자의 진행 상황이나 프로그램 진행 상황에 대해 간단히 판단할 필요가 있는 경우도 있습니다. 그러나 이러한 방식으로 평가 데이터를 사용하면 학습자가 학습에서 장애물을 극복하려는 시도로 초점을 전환할 수 있기 때문에 AFL 모델을 구현하려는 시도가 저해될 수 있습니다. 교육자들의 좋은 의도에도 불구하고, AFL은 학습자의 관점을 실제로 고려하지 않을 수 있다. 모든 유형의 평가에는 묵시적 판단 또는 '독소'가 내재되어 있기에, 학습자가 어떤 평가를 저부담의 형성적 평가로 볼 것이라고 가정하는 것은 주제넘을presumptuous 수 있다. 대신, 학습자가 평가를 사용하여 학습을 안내하고 이러한 통찰력을 사용하여 평가 프로그램을 적절하게 수정하는 방법을 조사하는 것이 유용할 수 있습니다. 
Finally, the issue of if and how to use progress tests and other formative assessments to make decisions about learners is a very practical concern. Although the primary purpose of these assessments may be formative, there is likely to be rich information that can be gained about learners.52 Not all assessment can be exclusively for learning, as it is sometimes necessary to make summary judgements regarding learners’ progress or continuation in a programme. However, using assessment data in this way may undermine attempts to implement an AFL model, as learners may shift their focus from learning to simply trying to overcome a hurdle. Despite educators’ good intentions, it is possible that AFL does not really consider the perspective of the learner. It may be presumptuous to assume that learners will ever be willing to view assessment as a low-stakes, formative experience because of the implied judgements, or ‘sting’, inherent in all types of assessment. Instead, it may be useful to probe learners about how they use assessment to guide their learning and use these insights to modify programmes of assessment accordingly.50

결론 Conclusions

점점 더 많은 교육자들이 역량 기반 의학 교육(CBME)을 수용함에 따라, AFL 모델은 계속해서 탄력을 받을 것 같다.53 이것은 또한 AOL가 차지할 장소가 없다는 것을 암시하는 것은 아니다. 단, AOL을 전경(예: 고위험 평가)에 두더라도, [지속적인 학습을 촉진할 기회]를 활용할 수 있고 이용해야 한다. 이러한 일이 일어나기 위해서는 평가 경험의 고통을 덜어줄 방법을 찾아야 한다. 발달시험은 이 독소를 제거(또는 최소한 감소)하는 문제에 대한 하나의 해결책으로 제공됩니다. 발달시험은 학습자에게 주입하려는 심층적이고 의미 있으며 지속적인 학습 유형을 지원할 가능성을 높이는 많은 기능을 가지고 있습니다. 
As more and more educators embrace competency-based medical education (CBME), the AFL model is likely to continue to gain momentum.53 This is not to suggest that there is not also a place for AOL. However, even when AOL is foregrounded (e.g. for high-stakes assessment), the opportunity to promote continuous learning can and should be harnessed. For this to occur, it is necessary to find ways to take the sting out of the assessment experience; progress tests are offered as just one solution to the problem of removing (or at least lessening) this sting. Progress tests have many features that increase the likelihood that they will support the types of deep, meaningful and continuous learning that we are trying to instill in our learners.

그러나 우리는 발달시험이 자동으로 이 기능을 수행한다고 가정하여 이러한 노력을 저해하지 않도록 주의해야 한다.

  • 사전 테스트, 순수 테스트 및 사후 테스트 영향을 통해 학습 관행을 형성하도록 [의도적으로 테스트를 구성]해야 합니다.
  • 우리는 시험이 평가의 AFL 측면을 뒷받침하는 [사회적 구성에 의해 뒷받침]되는지 확인해야 하며,
  • 우리는 학생들이 그러한 시험의 결과가 제공하는 성찰과 학습 기회를 최대한 활용할 수 있도록 하기 위한 [자원을 마련]해야 한다.

우리가 이런 노력을 하지 않는 한, 우리는 학생들의 마음속에서 진행 테스트가 우리의 커리큘럼에서 살아남기 위해 뛰어넘어야 할 또 다른 후프로 옮겨갈 위험을 무릅쓰고 있다.

However, we must be careful that we do not undermine these efforts by assuming that progress testing will automatically fulfill this function.

  • We must structure the tests intentionally to ensure that they shape learning practices through their pre-test, pure-test and post-test influences.
  • We must ensure that the tests are supported by social constructions that foreground the AFL aspect of the assessments, and
  • we must put in place the resources to ensure that students can take full advantage of the reflection and learning opportunities that the results of such tests offer.

Unless we engage in these efforts, we run the risk that progress tests will devolve, in the minds of our students, to just another hoop they must jump through to survive our curricula.

 

 


Med Educ. 2016 Jul;50(7):721-9.

 doi: 10.1111/medu.12985.

Taking the sting out of assessment: is there a role for progress testing?

Debra Pugh 1Glenn Regehr 2

Affiliations collapse

Affiliations

1Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada.

2Faculty of Medicine, Centre for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada.

PMID: 27295476

DOI: 10.1111/medu.12985Abstract

Context: It has long been understood that assessment is an important driver for learning. However, recently, there has been growing recognition that this powerful driving force of assessment has the potential to undermine curricular efforts. When the focus of assessment is to categorise learners into competent or not (i.e. assessment of learning), rather than being a tool to promote continuous learning (i.e. assessment for learning), there may be unintended consequences that ultimately hinder learning. In response, there has been a movement toward constructing assessment not only as a measurement problem, but also as an instructional design problem, and exploring more programmatic models of assessment across the curriculum. Progress testing is one form of assessment that has been introduced, in part, to attempt to address these concerns. However, in order for any assessment tool to be successful in promoting learning, careful consideration must be given to its implementation.Methods: We will examine the literature on how assessment drives learning and how this might apply to progress testing. We will also explore the distinction between assessment of learning and assessment for learning, including ways in which they overlap and differ. We end by discussing how the properties of an assessment tool can be harnessed to optimise learning.

Conclusions: Progress tests are one potential solution to the problem of removing (or at least lessening) the sting associated with assessment. If implemented with careful thought and consideration, progress tests can be used to support the type of deep, meaningful and continuous learning that we are trying to instill in our learners.

Objective: The purpose of this paper is to consider the implications of implementing progress testing within practice, and how this might promote or impede learning in the three phases of assessment (pre-test, pure-test and post-test).

© 2016 John Wiley & Sons Ltd.

총괄적 위임결정의 타당도에 대하여 (Med Teach, 2021)
On the validity of summative entrustment decisions
Claire Touchiea,b , Benjamin Kinnearc , Daniel Schumacherd , Holly Caretta-Weyere , Stanley J. Hamstraf,g , Danielle Harth , Larry Gruppeni , Shelley Rossj , and Eric Warmk , Olle ten Catel ; On behalf of the ICBME Collaborators

 

 

서론
Introduction

[의학 교육에서 가장 중요한 총괄적 위임 결정]은 수련을 마치는 시점에서 [전공의가 완전히 감독되지 않은 의료행위에 대한 준비가 되었다고 가정할 때] 이루어지는 결정이다. 그러나 많은 프로그램 디렉터는 자신의 가족은 절대 맡기고 싶지 않은 전공의 제자의 사례를 기억할 수 있다(존커 외 2020). 이러한 전공의가 졸업할 수 있는 이유로는

  • 전공의의 전문의 자격 취득을 막을 능력의 부족
  • 신뢰 부족 및 평가 방법 및 기준의 질 저하,
  • 의료인력 부족,
  • 법적 조치와 관련된 우려,
  • 전공의를 failing시키는 것으로 인해 발생할 재정문제

The most important summative entrustment decisions in medical education are arguably those made at the completion of postgraduate training when the practitioner is assumed to be ready for fully unsupervised practice. Many program directors, however, can recall cases of graduating residents they would not let care for their own family members (Jonker et al. 2020). Stated reasons for allowing these residents to graduate include

  • inability to stop trainees from getting certified,
  • lack of trust in and poor quality of assessment methods and criteria,
  • staff shortages,
  • concerns regarding legal action, and
  • the financial consequences of failing a trainee.

역량 기반 의료 교육(CBME)은 수련 기간을 역량의 대리지표로 의존하기 보다는, 명확하게 표현된 훈련 결과에 기초한 실천요강의 사용을 통해 그러한 '위양성false positive' 결정을 최소화하는 데 도움이 될 수 있다(Frank 등 2010). 프로그램이 포괄적 위임 결정을 통해 이러한 결과를 평가하는 경우, 평가의 학습자 성과에 대해 방어 가능한 타당성 수준을 가져야 한다.
Competency-based medical education (CBME) can help minimize such ‘false positive’ decisions through the use of practices based on clearly articulated outcomes of training rather than reliance on time in training as a surrogate for competence (Frank et al. 2010). If programs assess those outcomes through summative entrustment decisions, their assessments should have a defensible level of validity regarding learner performance.

 

CBME의 위임
Entrustment in CBME

CBME의 성과-기반 접근방식에는 의미 있는 방식으로 역량을 입증할 수 있는 강력한 평가assessment practice가 필요하다(Gruppen et al. 2018). 위임은 평가자의 인지 프로세스와 일치하는 방식으로 역량을 평가하기 위한 프레임워크로 부각되었다(10 Kate 2006, Rekman 등 2016, 10 Kate 등). 위임의 개념은 다음과 같은 인식에서 비롯되었다. "환자와 사회가 [의료 전문가에게 갖는 안전한 고품질 의료를 제공할 것이라는 신뢰]는 [의료에서 필수적인 역동적 요소]로서, 이것은 [학습자 역량 평가를 위한 프레임워크]로 번역될 수 있다." 이 개념으로 평가자는 역량을 직접 평가하지 않는다. 대신, 역량 수준은 일상적 활동에서의 수행능력에 대한 평가를 바탕으로 추론된다. 물론, 시뮬레이션 상황에서의 평가를 보조적으로 활용할 수는 있다.
The outcomes-based approach of CBME requires robust assessment practices that can attest to competence in a meaningful way (Gruppen et al. 2018). Entrustment has come to the fore as a framework for assessing competence in a way that aligns with the cognitive processes of raters (ten Cate 2006; Rekman et al. 2016; ten Cate et al. 2016). The concept of entrustment grew from awareness that the trust patients and society place in health care professionals to deliver safe, high-quality care (ten Cate et al. 2016) is an essential dynamic in health care that may be translated to a framework for assessing learner competence. With this concept, raters do not assess competencies directly; instead, a level of competence is inferred on the basis of assessments of performance during daily work activities, perhaps augmented with assessments in simulation conditions, that reflect readiness for health care responsibilities.

위임에 대한 한 가지 접근법은 [의사들이 하는 것을 개념화하고, 업무 기반 평가를 용이하게 하는 프레임워크를 제공하기 위한 방법]으로 제안된 위임 가능한 전문 활동(EPA)이다(Kate 2006 10). EPA의 핵심은 [의도적으로 감독 수준을 줄인 상태에서 의료행위를 수행할 수 있는 학습자의 능력]을 "신뢰"해야 한다는 것이다. 학습자가 발전을 거듭함에 따라 감독자와 의료 시스템에 의해 [더 적은 감독 하에, 더 큰 환자 관리 책임]을 위임받는다.

One approach that draws heavily on entrustment is entrustable professional activities (EPAs), proposed as a way to conceptualize what it is that physicians do and to provide a framework to facilitate work-based assessment (ten Cate 2006). At the core of EPAs is the need to trust the learner’s ability to perform an activity with deliberately decreasing levels of supervision. As learners advance in their development, they are entrusted by supervisors and the health care system with increasing patient care responsibilities under lessening supervision.

위임 결정은 다양한 맥락에서 이루어진다.

  • 임상 일선에서 감독자는 학습자가 주어진 수준의 감독 하에 매일 임상 치료 과제를 수행할 수 있도록 허용할 때 [임시적 위임 결정]을 내린다(10 Kate 등 2020). 임시적 위임 결정은 상황, 업무, 감독자의 신뢰 성향, 감독자-훈련자 관계 및 훈련자의 과거 성과 등을 포함한 몇 가지 변수에 의해 영향을 받는다(Hauer et al. 2014).
  • [총괄적 위임 결정]은 학습자가 필요로 하는 감독량에 대한 보다 공식적이고 신중한 결정이다. 이 결정은 학습자가 주어진 감독 수준에서 공식적으로 할 수 있는 것에 변화를 초래한다. 

Entrustment decisions are made in various contexts.

  • On the clinical front lines, supervisors make ad hoc entrustment decisions when they allow learners to perform daily clinical care tasks with a given level of supervision (ten Cate et al. 2020). Ad hoc entrustment decisions are affected by several variables, including the context, the task, the supervisor’s propensity to trust, the supervisor–trainee relationship, and the trainee’s past performance (Hauer et al. 2014). 
  • Summative entrustment decisions are more formal and represent deliberate determinations of the amount of supervision a learner needs. The latter decisions result in changes in what learners are officially allowed to do at a given level of supervision.

프로그램 및 기관(예: 의과대학, 레지던트 프로그램, 인증 기관)은 [학습자가 정의된 성과를 충족하고, 다음 단계의 교육 또는 실습으로 진행할 준비가 되었는지의 여부]에 대한 [광범위한 총괄적 위임 결정]을 내릴 책임이 있다(10 Kate et al. 2016). 이러한 결정은 시간이 지남에 따라 다양한 평가인의 충분한 데이터 포인트(임시 위임 결정을 포함하는 평가 포함)로 통지되어야 하며, 진급 위원회 또는 임상 역량 위원회(본 논문에서 위임 의사결정 위원회로 지칭)와 같은 위원회가 수행해야 한다(Smit et al. 2019).

Programs and institutions (e.g. medical school, residency program, credentialing bodies) are responsible for making broader summative entrustment decisions as to whether learners have met the defined outcomes and are ready to progress to the next phase of training or practice (ten Cate et al. 2016). These decisions should be informed by sufficient data points (including assessments that incorporate ad hoc entrustment decisions) from various assessors over time, and they should be made by committees such as promotions committees or clinical competence committees (referred to as entrustment decision committees in this paper) (Smit et al. 2019).

[위임 결정의 부담stakes]은 종종 학습자, 프로그램 및 환자에 대한 결과와 관련이 있습니다.

  • 임시 결정의 부담은 단일 상황에 관한 것이기에 낮지만, 종합적 결정의 부담은 낮은 것부터 높은 것까지 [부담 수준의 연속체]에서 발생할 수 있으며, 그 결정이 일반화되는 성격을 갖는다(Schuwirth 및 Ash 2013; van der Vleuten et al. 2015).
  • [저부담의 총괄적 결정]에는 전공의가 고유의 위험이 거의 없는 특정 조건을 관리할 수 있는 시기를 결정하거나, 전공의가 특정 업무에 대한 직접 감독에서 간접 감독으로 이동할 수 있는 시기를 결정하는 것이 포함될 수 있다.
  • [궁극적인 고부담 결정]학습자가 일반적인 졸업 시점에 [전문직이 수행하는 (전체) 범위에 걸쳐 감독되지 않은 의료행위를 할 준비가 되었는지, 아니면 훈련을 연장해야 하는지] 여부를 결정해야 할 때 발생한다. 

The stakes of entrustment decisions are often related to the consequences for the learner, the program, and patients.

  • While the stakes of ad hoc decisions are lower as they pertain to a single instance, summative decisions can occur on a continuum of stakes ranging from low to high and have a generalized nature (Schuwirth and Ash 2013; van der Vleuten et al. 2015).
  • A lower stakes summative decision might involve determining when a resident is permitted to manage a given condition with little inherent risk, or determining when a resident can move from direct to indirect supervision for a particular task.
  • However, an ultimate high-stakes decision occurs at the end of training when it must be determined whether a learner is ready for unsupervised practice at the usual graduation time point across the breadth of a profession or whether training should be extended.

모든 결정은 부담(의 수준)에 관계없이 방어 가능해야 하지만, 부담이 높은 결정이 더 높은 수준의 증거를 요구한다. 실제로, CBME 운동은 의학의 공적책무public accountability를 강조하는 사회문화 운동에서 비롯되었다(2007년 호지) 수련을 막 마치고 adverse event에 연루된 의사를 상상해보라. 모든 근본 원인 분석은 개인이 잘 훈련되었는지 또는 평가되었는지 여부와 그러한 상황이 사건에 기여했는지 여부를 고려해야 한다. 이 실무자를 졸업시키고 감독 없이 실무에 임할 수 있도록 하기 위한 포괄적 위임 결정은 개인에 대한 이전 관찰과 그에 따른 절차에 근거하여 방어 가능해야 한다. 이 방어가능성은 타당성 주장validity argument의 관점에서 개념화할 수 있다.

While all decisions should be defensible regardless of stakes, higher stakes decisions require higher levels of evidence. Indeed, the CBME movement grew out of sociocultural movements that emphasized public accountability in medicine (Hodge 2007). Imagine a practitioner who has just completed training and is involved in an adverse event. Any root cause analysis should consider whether the individual was well trained or assessed and whether those circumstances contributed to the event. The summative entrustment decision to graduate this practitioner and allow them to practise without supervision should be defensible on the basis of earlier observations of the individual and the procedures that were followed. This defensibility can be conceptualized in terms of validity arguments.

본 기사는 국제 CBME 협력자 포럼(2019년 7월 11일과 12일, 캐나다 오타와에서 이틀간)에서 열린 광범위한 토론에 기초한다. 
This article is based on extensive discussions held at a 2-day forum of the International CBME Collaborators (11 and 12 July 2019, in Ottawa, Canada). 

 

논쟁의 증거로서의 타당성
Validity as evidence for an argument

타당도는 평가 데이터에서 비롯되는 해석 및 결정의 방어성으로 정의될 수 있다(Messick 1989; AERA 2014). 타당도는 도구의 속성이 아니라 제안된 데이터 해석 및 사용을 뒷받침하는 데 사용할 수 있는 증거이다(Messick 1989; Kane 1992). 타당화validation은 해석에 따른 결정을 뒷받침하기 위해 증거에 근거한 주장을 구성constructing하는 과정이다. 어느 지점을 '충분한 증거가 존재하는 종점end point'로 볼 것이냐는 [결정의 부담]와 [명확성, 일관성 및 타당성에 대한 주장에 대한 가치 판단을 내리는 당사자]에 달려 있다(Kane 1992, 2001; van Eemeren 등 2013; Marseau 등 2018).

Validity can be defined as the defensibility of interpretations and decisions resulting from assessment data (Messick 1989; AERA 2014). Validity is not a property of an instrument but rather the evidence available to support a proposed interpretation and use of data (Messick 1989; Kane 1992). Validation is the process of constructing arguments grounded in evidence to support resulting decisions. The end point at which sufficient evidence exists depends on the stakes of the decision and the party making the value judgment on the argument for clarity, coherence, and plausibility (Kane 1992, 2001; van Eemeren et al. 2013; Marceau et al. 2018).

[총괄적 위임 결정]은, 훈련 종료 결정과 관련하여 감독되지 않은 실행으로 이어지며, 환자 치료에 직접적인 영향을 미치기 때문에 고도로 정밀하고 강력한 타당도 증거를 고려할 가치가 있다. 교육 종료 전에 수행된 소규모 실무 단위(EPA)에 대한 총괄적 위임 결정은 동일한 이유로 강력한 타당도 증거를 필요로 한다(Kate 2017 10개 10). '높은 표준'이 의미하는 것은, 이 검증validation이란 [기존 증거를 면밀히 조사]하는 동시에, 영구히 [새로운(그리고 더 설득력 있는) 타당도 증거를 구축]하는, 영속적perpetuity 프로세스여야 한다는 것이다(St-Onge 등 2017). 

Summative entrustment decisions, in the context of end-of-training decisions leading to unsupervised practice, merit highly scrutinized, robust validity evidence because these decisions directly affect patient care. Summative entrustment decisions for smaller units of practice (EPAs) made before the end of training similarly require strong validity evidence for the same reason (ten Cate 2017). High standards mean that validation should be an ongoing process of both scrutinizing existing evidence and building new (and more convincing) validity evidence in perpetuity (St-Onge et al. 2017). 

증거 구성
Organizing the evidence

Cook과 Hatala(2016)가 제안한 8단계(표 1 참조)는 타당성 주장의 구축을 안내하는 데 도움이 될 수 있다.

  • 첫째, [평가할 구인]과 [데이터를 사용하여 제안할 해석]을 잘 정의해야 한다. 포괄적 위임 결정과 CBME가 보다 광범위하게 적용되면, 가장 기본적인 구인은 [환자 치료 업무를 수행할 수 있는 역량]이다. Frank와 동료(2010)는 역량이 다차원적이고 역동적이라는 점을 지적하면서 역량을 '특정 맥락에서 여러 영역 또는 의사 수행 측면에 걸친 능력의 배열'로 정의한다.
  • 둘째, 위임 결정의 목적을 규정해야 한다. 포괄적 위임 결정의 목적은 [거의 감독이 없는 상태에서 EPA와 같은 작업을 수행할 준비가 된 사람들]을 식별하는 것이다. 궁극적으로 감독하 진료에서 비감독 진료로 이어지는 포괄적 위임 결정이 내려질 것이다. 설득력 있는 주장을 하는 데 필요한 증거는 맥락에 따라 다르다.

Eight steps (shown in Table 1) proposed by Cook and Hatala (2016) can help guide the building of a validity argument.

  • First, the construct being assessed and the proposed interpretation using the data must be well defined. With summative entrustment decisions, and CBME more broadly, the underlying construct is most often competence to perform tasks of patient care. Frank and colleagues (2010) define competence as ‘the array of abilities across multiple domains or aspects of physician performance in a certain context’, noting that competence is multidimensional and dynamic.
  • Second, the purpose of the entrustment decision must be defined. For summative entrustment decisions, the purpose is to identify those who are ready to progress to perform a task, such as an EPA, with a lower level of supervision. Ultimately, a summative entrustment decision will be made leading from supervised practice to unsupervised practice. The necessary evidence to make a cogent argument differs depending on the context.

표 1. 포괄적 위임 결정의 유효성 확인을 위한 실질적인 단계
Table 1. 
Practical steps to validation of summative entrustment decisions.

쿡과 하탈라(2016) 검증 프로세스의 3단계부터 6단계까지는 [해석-사용 주장(IUA)을 정의]하는 것으로서, 이를 위해

  • [(관찰 순간부터 최종 결정까지) 일련의 사건에 존재하는 가정을 식별]하고,
  • [현재 증거를 면밀히 조사]하거나,
  • 이러한 [가정에 대한 새로운 증거를 구축]해야 한다.

Steps three through six of Cook and Hatala (2016) validation process involve defining an interpretation-use argument by

  • identifying assumptions that exist in the chain of events from the moment of observation to the end decision and
  • scrutinizing current evidence or
  • building new evidence for those assumptions.

두 가지 현대적 타당성 프레임워크(케인과 메식 각각에 의해 제시됨)는 종종 이러한 가정과 그에 수반되는 증거를 구성하는데 사용된다. 케인의 프레임워크는 관찰 순간부터 최종 해석 및 사용까지 확장되는 증거 체인의 연계를 강조한다(Cook et al. 케인은 네 가지 추론을 설명하는데, 각각의 추론은 증거와 함께 뒷받침되어야 한다: 점수, 일반화, 외삽, 그리고 함축scoring, generalization, extrapolation, and implication..

Two contemporary validity frameworks, put forth by Kane and Messick respectively, are often used to organize these assumptions and the accompanying evidence. Kane’s framework emphasizes links in an evidentiary chain that extends from the moment of observation to final interpretations and uses (Cook et al. 2015). Kane describes four inferences, each of which should be supported with evidence: scoring, generalization, extrapolation, and implication.

케인 프레임워크의 한 가지 장점은 증거 체인의 '가장 약한 고리'를 식별하고 교육자가 이러한 추론에 대한 증거를 구축하는 데 집중할 수 있다는 것이다(쿡 외 2015). 메식 프레임워크는 내용, 대응 프로세스, 내부 구조, 다른 변수와의 관계, 결과 등 5가지 범주로 구성된 타당도 증거의 출처 또는 유형을 포함한다. 두 프레임워크 모두 의학 교육에 사용되었으며, 어느 것을 선택하더라도 타당성 검증에 대한 합당한 접근 방식이지만, 교육자는 그들이 사용할 프레임워크에 대한 정당성을 제시해야 한다(Lineberry 2019). 특히, 이 두 프레임워크는 보완적일 수 있다. 증거 체인의 다양한 추론inference(케인)을 뒷받침하기 위해 증거 유형type(메시크)을 사용할 수 있다.  
One advantage of Kane’s framework is that it allows for the identification of the ‘weakest link’ in the evidentiary chain and for educators to focus on building evidence for that inference (Cook et al. 2015). Messick’s framework involves sources or types of validity evidence that are organized into five categories: content, response process, internal structure, relationship to other variables, and consequences (Messick 1989). Both frameworks have been used in medical education, and while either is a reasonable approach to validation, educators should provide justification for which framework they choose to use (Lineberry 2019). Notably, these frameworks can be complementary. One could use types of evidence (Messick) to support various inferences in an evidentiary chain (Kane).

예를 들어, 강력한 평가자 훈련을 사용하면 그림 1과 표 2에 설명된 대로 채점scoring 추론(Kane)에 대한 응답 프로세스 증거(Messick)를 제공할 수 있다. 우리는 [위임 의사결정 위원회]의 맥락에서 케인의 프레임워크를 사용하여 교육 종료, 종합 위임 결정을 할 때 각 추론을 검토하고 각 추론을 뒷받침하기 위해 현재 존재하는 증거 유형(질적 및 양적)을 제공하는 동시에 향후 유효한 증거와 함께 모색해야 할 증거도 제시할 것이다.격세지 작업 우리는 Kane의 프레임워크에서 4가지 추론을 검토하여 포괄적 위임 결정에 대한 타당성 논거를 구성하면서 Messick의 프레임워크에 대한 링크를 입증할 것이다(Wijnen-Meijer et al. 2013).

For example, using robust rater training would provide response process evidence (Messick) for the scoring inference (Kane), as illustrated in Figure 1 and Table 2. We will examine each inference in making end-of-training, summative entrustment decisions using Kane’s framework in the context of an entrustment decision committee and provide types of evidence (both qualitative and quantitative) that currently exist to support each inference, while also suggesting evidence that should be sought with future validation work. We will review the four inferences in Kane’s framework to organize a validity argument for summative entrustment decisions while demonstrating the link to Messick’s framework (Wijnen-Meijer et al. 2013).

그림 1 Messick의 1989년 프레임워크를 사용하여 조직된 타당도 증거의 유형은 Kane의 1992년 프레임워크를 사용하여 조직된 증거 체인의 추론을 뒷받침할 수 있다. (Cook과 동료들로부터 허가를 받아 수정 [2015])
Figure 1. 
Types of validity evidence organized using Messick’s 1989 framework can support inferences in the chain of evidence organized using Kane’s 1992 framework. (Modified from Cook and colleagues [2015] with permission.)

 

표 2 타당성 증거 및 추론 출처 – 해결해야 할 질문.
Table 2. Sources of validity evidence and inferences – questions to be addressed.

스코어링
Scoring

모든 위임 결정은 [관찰의 순간]을 [양적 또는 질적 기록]으로 변환하면서 시작한다. 평가 프로그램에서 이러한 관측치는 필기 시험, 시뮬레이션 성과 관측 또는 작업장 기반 관측 등 여러 가지 방법으로 발생할 수 있습니다. 점수 추론scoring inference은 [관찰이 평정rating으로 전환되는 방법]을 뒷받침하는 증거를 수집하는 것을 포함한다. 여기에는 다음에 대한 rationale의 제공이 포함된다. 

  • 평가 항목의 구성,
  • 평가 관리,
  • 시뮬레이션 실행,
  • 그룹 프로세스 및
  • 평가자 훈련

Every entrustment decision begins with a moment of observation converted into a quantitative and/or qualitative record of that observation. In a program of assessment, these observations can occur in multiple ways, including written tests, observations of simulation performance, or workplace-based observations. The scoring inference involves gathering evidence to support how these observations are converted into a rating, such as providing rationales for

  • assessment items’ construction,
  • assessment administration,
  • simulation execution,
  • group processes, and
  • rater training.

[총괄적 위임 결정]의 경우, 의사결정자(예: 위임 의사결정 위원)가 (위임 등급을 결정하기 위해 일선 평가자의 실제 관찰을 포함하여) 많은 프로그램 평가 데이터 포인트를 검토하고 처리할 때 '관찰'의 순간이 발생한다. 이 맥락에서 [점수 추론]을 뒷받침하는 증거는 여러 형태로 존재할 수 있다. [위임]을 종합적 의사결정을 위한 프레임워크로 사용하는 것은, 본질적으로 [채점 추론]에 대한 증거를 제공한다. 왜냐하면 위임은 종종 [위임 의사결정 위원회의 많은 부분을 차지하는 임상의사 교육자의 인지 과정]과 [위임되는 과제] 사이의 construct alignment을 제공하기 때문이다 (Crossley 등 2011; Rekman 등). 이것은 [채점 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [응답 프로세스 증거(메식 프레임워크)]의 예이다.

For summative entrustment decisions, the moment of ‘observation’ occurs when decision-makers (e.g. entrustment decision committee members) review and process the many programmatic assessment data points, including actual observations of the trainee from front-line raters, to determine an entrustment rating. Evidence to support the scoring inference in this context could exist in multiple forms. Using entrustment as a framework for summative decisions innately offers evidence for the scoring inference, as entrustment provides construct alignment between the cognitive processes of clinician educators, who often make up a large proportion of entrustment decision committees, and the tasks being entrusted (Crossley et al. 2011; Rekman et al. 2016). This is an example of response process (Messick’s framework) evidence being used to support the scoring inference (Kane’s framework).

[점수 추론]을 뒷받침하는 다른 증거가 생성될 수 있고, 생성되어야 한다. 예를 들어, 그룹 의사결정을 최적화하기 위해 [위임 의사결정 위원회 구성원들이 어떻게 선택되었는지]에 대한 근거를 명확히 하는 것이 중요하다. 그룹이 의견의 [다양성을 포함]하도록 하는 것은

  • 과제 충돌을 촉진하고(과제의 상이한 견해로 인한 인지적 차이),
  • 그룹 사고를 완화하고(진실을 댓가로 그룹 만장일치를 보존하는 결정)
  • 더 나은 결정을 이끌어 낼 수 있다.

Other evidence to support the scoring inference can and should be generated. For example, it would be important to articulate the rationale for how entrustment decision committee members were chosen to optimize group decisions. Ensuring that the group contains diversity of opinion can

  • foster task-conflict (cognitive differences owing to divergent views of a task) (Dai 2013),
  • mitigate group-think (making decisions that preserve group unanimity at the potential cost of truth) (Janis 1971), and
  • lead to better decisions (Hauer et al. 2016).

모든 위임 의사결정 위원이 평가 데이터를 유사하게 저울질할 수는 없다. 즉, 설령 평가 형식에 반영되지 않거나, 말로 표현하기 쉽지 않을지라도, [주관적인 인상]이 곧바로 타당성 증거가 없음을 의미하는 것이 아니다 (Oudkerk et al. 2018; 10 Kate and Regher 2019; van Enk and 10 Kate 2020). 포트폴리오 데이터와 결합된 [간주관적intersubjective 판단]은 [평가 데이터의 의미에 대한 공동의 이해를 촉진]하는 데 중요하며, [위원회 위원의 훈련] 및 [일선 임상 교사의 훈련]에 의해 더 튼튼해질support 수 있다. 의견이 다르더라도 점수 추론을 뒷받침하기 위해서는 [공유 멘탈 모델이 있다는 증거]가 중요하다.
Not all entrustment decision committee members may weigh assessment data similarly, and subjective impressions are not necessarily void of validity evidence, even if these are not reflected in rating forms or easy to express in words (Oudkerk et al.
 2018; ten Cate and Regher 2019; van Enk and ten Cate 2020). Intersubjective judgment combined with portfolio data, supported by training of committee members, as well as front-line clinical teachers, is important to foster a shared understanding of what the assessment data mean (Kinnear et al. 2018). Evidence of having a shared mental model is important to support the scoring inference, even if the opinions differ. 

[인지적 편향]은 종합적 결정에 영향을 미칠 수 있으며(Dickey 등. 2017) 이를 완화하기 위한 훈련 또는 전략을 보유하면 점수 증거를 뒷받침할 수 있다. [총괄적 집단 결정]은 점수 추론에 영향을 미칠 수 있는 다음과 같은 것에 의해 영향을 받을 수 있다(키니어 외 2020). 

  • 사회적 위계 구조(로렌즈 외 2011),
  • 시간 압박(차힌 외 2017),
  • 정보 폭포(개인이 다른 사람의 관찰과 의견에 기초하여 결정을 내릴 때)

Cognitive biases could affect summative decisions (Dickey et al. 2017) and having training or strategies to mitigate these would support the scoring evidence. Summative group decisions can be influenced by

  • social hierarchy (Lorenz et al. 2011),
  • time pressures (Chahine et al. 2017), or
  • information cascades (when an individual makes decisions on the basis of the observations and opinions of others) (Kinnear et al. 2020) that could affect the scoring inference.

단순한 임시 토론이 아니라, 강력한 정보 공유를 위한 [구조화된 그룹 프로세스]를 갖는 것은 이러한 영향력이 완화되고 있다는 중요한 증거가 될 것이다.

Having structured group processes for robust information sharing rather than simply ad hoc discussions would be important evidence that these are being mitigated.

 

일반화
Generalization

[일반화 추론]은 주어진 점수가 [관찰의 가능한 모든 버전]을 얼마나 잘 나타내는지, 그리고 아마도 [총괄적 위임 결정]에 있어서 가장 중요한 것은 [관찰된 상황의 전체 '우주'overall universe에서 예상되는 성능]을 어떻게 나타내는지를 나타낸다(10 Kate et al. 2020). 일반화를 뒷받침하는 증거는 다음에 대한 데이터를 포함한다.

  • 표본 추출 전략,
  • 표본 크기,
  • 변별력
  • 신뢰성

The generalization inference refers to how well a given score represents all possible versions of an observation, and perhaps most importantly for summative entrustment decisions, how it represents expected performance in an overall ‘universe’ of observed situations (ten Cate et al. 2020). Evidence to support generalization includes data on

  • sampling strategy,
  • sample size,
  • discriminatory power, and
  • reliability.

포괄적 위임 결정의 경우, 다음 질문에 답하기 위한 증거를 찾아야 한다.

  • 관찰된 샘플이 위임 결정을 하기에 충분한가?
  • EPA에 중요한 다양한 맥락에서 학습자가 관찰되었는가?
  • 그 증거가 더 높은 수준의 위임을 받을 자격이 있는 사람들과 그렇지 않은 사람들을 구별하는가?
  • 다른 위임 결정 위원회가 동일한 정보에 근거하여 유사한 결정을 내릴 수 있는가?

In the case of summative entrustment decisions, evidence should be sought to answer the following questions:

  • Is the observed sample sufficient for an entrustment decision?
  • Have learners been observed in various contexts that matter for the EPA?
  • Does the evidence differentiate between those who deserve a higher level of entrustment and those who do not?
  • Would a different entrustment decision committee come to similar decisions on the basis of the same information?

[내용 설계blueprinting] 및 [샘플링 전략]의 증거를 사전에 정의해야 하며, 이는 [어떤 프로그램 평가 데이터가 위임 의사결정 위원회에 제공되는지]에 대한 정보를 준다. 예상 데이터의 예로는 다음이 있다.

  • 직접 관찰(미니 임상 평가 연습[mini-CEX], 현장 노트 등과 같은 다양한 도구를 사용하여 수집한 데이터),
  • 종단적 실무 관찰(예: 멀티소스 피드백),
  • 사례 기반 논의,
  • 시뮬레이션 시험
  • 훈련 중 평가

Evidence of content blueprinting and sampling strategies must be defined a priori to inform which programmatic assessment data are provided to the entrustment decision committee. Examples of expected data may include

  • direct observations (data gathered using various tools such as mini clinical evaluation exercise [mini-CEX], field notes, etc.),
  • longitudinal practice observations (e.g. multisource feedback),
  • case-based discussions,
  • simulation tests, and
  • in-training evaluations (Colbert et al. 2015; Duijn et al. 2019).

러 맥락에서 추가 연구가 필요하지만 종합 위임-감독 수준 등급이 학습자와 활동을 차별한다는 증거가 있다(Schumacher 등 2020a). 

There is evidence that summative entrustment-supervision level ratings discriminate among learners and activities (Schumacher et al. 2020a), although further studies in multiple contexts are necessary.

[집단 결정의 신뢰성]에 대한 증거 또한 중요하다. 비록 협소한 심리측정적 공식만으로는 더 이상 CBME에서 타당도의 유일한 출처가 된다고 여겨지지 않지만, [종합적 결정]이 재현 가능하며, (다른 구인이 아닌) [학습자의 성과를 반영한다는 증거]를 제공하는 것이 중요하다. 복수의 잠재적 점수 오류 원인이 있는 복잡한 시스템의 신뢰성은 [일반화가능도 연구(G-study)]를 사용하여 가장 잘 조사될 수 있다(De Champlain et al. 2016). 이 접근법은 위임결정위원회의 위원 자격이나 연도별 시기 등 다른 변수보다는 학습자에 의한 위임 변동의 양을 고려합니다. 이러한 연구는 WBA 및 임시적 위임 평정에서 수행되었지만, 종합 위임 결정의 사이코메트리 특성을 조사하기 위한 연구는 수행되지 않았다. 이러한 유형의 연구는 [일반화 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [내부 구조(메식 프레임워크)] 증거를 제공할 것이다.

Evidence for the reliability of group decisions is also important. Although a narrow formulation of psychometrics is no longer seen as providing the sole source for validity in CBME (Holmboe et al. 2017; Uijtdehaage and Schuwirth 2018), it is important to provide evidence that summative decisions are reproducible and reflect the performance of the learner rather than other constructs. Reliability in complex systems with multiple potential sources of scoring error may be best investigated using a generalizability study (G-study) (De Champlain et al. 2016). This approach considers the amount of entrustment variance that is due to the learner rather than other variables, such as the membership of the entrustment decision committee or the time of year. Such studies have been conducted in the setting of work-based assessments (Bok et al. 2018) and ad hoc entrustment ratings (Kelleher et al. 2020), but to our knowledge no studies have been performed to investigate the psychometric properties of summative entrustment decisions. This type of study would provide internal structure (Messick’s framework) evidence being used to support the generalization inference (Kane’s framework).

외삽
Extrapolation

Kane의 외삽 추론은 [테스트 우주에서 평가한 수행능력]이 [실제 환경에서 수행능력의 핵심 측면]을 반영한다는 가정을 의미한다. EPA의 경우, [종합 위임 결정]과 CBME의 바람직한 결과인 [환자 치료 품질(fidelity)]의 표현 사이의 관계를 설명한다. 외삽을 위한 추론은 케인의 프레임워크에서 [포괄적 위임 결정]의 가장 중요한 연결고리라고 주장될 수 있다. 왜냐하면 이 추론에서는 '특정 EPA를 수행에 대한 [점진적 위임]이 진정으로 [고품질의 환자 관리]를 반영하는가?'라는 질문을 던지고 있기 때문이다.

Kane’s extrapolation inference refers to the assumption that performance on an assessment in the test universe reflects key aspects of performance in the real-world setting. For EPAs, it speaks to the relationship between summative entrustment decisions and their representations of patient care quality (fidelity), the desired outcome of CBME. The inference made for extrapolation can be argued to be the most important link for summative entrustment decisions in Kane’s framework, as it begs the question ‘Does progressive entrustment to perform a given EPA truly reflect high-quality patient care?’

실제로, (전달delivered된 의료의 질을 평가하기 위해서 쓰이는 과정 척도와 성과 척도를 비롯한) clinical care measure를 교육에 통합해야 한다는 요구가 증가하고 있다. [프로그램 수준의 데이터]가 [임상 성과 척도]로 외삽될 수 있고, [임시적 위임 등급]이 [임상 치료 척도clinical care measure]와 관련이 있다는 증거가 존재하지만, [포괄적 위임 결정]과 그에 상응하는 임상 치료 조치에 대한 데이터는 부족하다. 이러한 데이터는 [외삽 추론(케인의 프레임워크)]을 뒷받침하는 [다른 변수와의 관계 증거(메식 프레임워크)]를 제공할 것이다.

Indeed, the calls for integration of clinical care measures into education are growing, including process and outcome measures that are used to assess quality of care delivered (Weinstein 2017; Chahine et al. 2018; Triola et al. 2018; Warm and Mathis 2019). While evidence does exist that data at a program level can extrapolate to clinical performance measures (Asch et al. 2009; Chen et al. 2014; Bansal et al. 2016) and that ad hoc entrustment ratings are associated with clinical care measures (Schumacher et al. 2020b), there is a lack of data on summative entrustment decisions and corresponding clinical care measures. These data would provide relationship to other variables (Messick’s framework) evidence to support the extrapolation inference (Kane’s framework).

[포괄적 위임 결정]은 현재 성과를 고려해야 할 뿐만 아니라, 가능한 모든 조건을 고려한 EPA 범위를 추정해야 한다. 이는 [향후 성과에 대한 신뢰]까지를 의미한다. 전공의가 감독 없이 EPA를 위임받는 경우, 이 위임은 결정 순간을 넘어 졸업 이상의 범위까지 확대된다. 외삽 추론을 뒷받침하는 증거는 의학교육 연구에서 우선순위가 되어야 한다.

Summative entrustment decisions should not only regard current performance but also extrapolate to the universe of instances of the EPA under all possible conditions. That would imply trust in any future performance. When a resident is entrusted with an EPA without supervision, this entrustment extends beyond the moment of the decision, but also well beyond graduation into practice. Evidence to support the extrapolation inference should be a priority in medical education research.

함의
Implication

케인의 최종 추론인 [함의implication]는 [주어진 점수]를 [(미리 명시된) 해석/사용 주장interpretation/use argument]와 통합하는 것이다. 여기에 해당하는 증거로는 다음이 있다.

  • 해석에 대한 기준이 어떻게 결정되었는지,
  • 해석에 정보를 제공하는 이론이나 프레임워크가 어떻게 뒷받침되는지,
  • 아마도 가장 중요한 것은, 결과적인 사용과 결정에 따르는 결과consequences이다.

Kane’s final inference, implications, involves integrating the given score with an interpretation/use argument that should have been prespecified. Evidence can be provided to support theories or frameworks that inform interpretations, how standards for interpretation were determined, and perhaps most importantly, the consequences of resulting uses and decisions.

[위임 의사결정 위원회]는 서로 다른 위임 수준에 대한 [임계값thresholds을 설정하는 방법]과 이러한 [임계값을 얼마나 잘 준수하는지]에 대한 증거를 제공해야 한다. 개인에 대한 결정은 다른 학습자에게 반드시 적용되지 않는 고유한 정보를 의미할 수 있지만, 가능하면 위원회는 훈련을 통해 [공유된 판단shared judgement]과 [기준 프레임frames of reference]에 투자해야 한다(Kogan et al. 2015).

Entrustment decision committees should provide evidence for how they set thresholds for different entrustment levels (Calaman et al. 2016) and how well they adhere to those thresholds. While decisions about individuals may imply unique information that does not necessarily apply to other learners, committees should invest in shared judgments and frames of reference, if possible through training (Kogan et al. 2015).

학습자, 프로그램 및 환자에게 [의도한 결과와 의도하지 않은 결과] 모두에 대한 증거도 찾아야 합니다. 이러한 증거에는 [포괄적 위임 결정]이 다음에 미치는 영향을 포함할 수 있다.

  • [학습, 전문적 정체성 형성, 웰빙에 어떻게 영향을 미치는지], 그리고
  • 무엇보다도 [위임 결정의 결과로 제공되는 관리의 품질과 안전에 어떤 영향을 미치는지]

Evidence for consequences, both intended and unintended, to learners, programs, and patients should also be sought (Cook and Lineberry 2016). Such evidence might include

  • how summative entrustment decisions affect learning, professional identity formation, and well-being, and
  • foremost how they affect the quality and safety of care provided as a result of the entrustment decision.

이 경우 [결과 타당도 증거(Messick)]는 [함의 추론(Kane)]을 알려준다. 
In this case, consequences validity evidence (Messick) informs the implications inference (Kane).

예를 들어, Schumacher와 동료(2020b)는 3년 동안 23개의 소아과 레지던트 프로그램에서 미국 소아과 EPA 위원회 사용의 결과를 연구했고 전공의가 서로 다른 수준의 EPA를 수행하도록 위임받은 시간의 측면에서 상당한 이질성이 존재한다는 것을 발견했다. 감독되지 않은 관행을 위해 위임된 전공의의 비율은 EPA에 따라 크게 달랐으며, 졸업 시 준비된 것으로 간주되는 전공의의 53%와 98% 사이의 범위였다. 본 연구는 감독되지 않은 실습에 대한 준비 상태를 결정하기 위해 포괄적 위임 결정을 사용하는 경우, 대부분의 학습자가 훈련을 확장하거나 준비 상태를 달성하기 위해 훈련 경험을 조정해야 할 수 있으며, 모든 졸업생이 모든 EPA에 준비되지 않았다는 것을 프로그램이 수용해야 할 수 있음을 시사한다. 학습자 및 프로그램이 연장된 교육을 수용할 수 있습니까? 

For example, Schumacher and colleagues (2020b) studied the consequences of using the American Board of Pediatrics EPAs at 23 pediatric residency programs over three years and found that significant heterogeneity existed in terms of the time at which residents were entrusted to perform EPAs at different levels of supervision. The percentage of residents entrusted for unsupervised practice differed widely by EPA, ranging between 53% and 98% of residents being deemed ready at graduation. This study suggests that if summative entrustment decisions are used to determine readiness for unsupervised practice, then a large proportion of learners may need to extend their training or have their training experiences adjusted to achieve readiness, or programs may need to accept that not all graduates will be ready on all EPAs. Is extended training acceptable to learners and programs?

현재 우리는 전공의 수련 프로그램이 [독립적으로 환자를 돌볼 준비가 되어 있지 않은 학습자]를 졸업시킨다는 것을 알고 있다(Jonker et al. 2020). 그러나 반대로, 우리는 모든 졸업생이 [독립 진료에 대한 동일한 준비 기준]을 충족하도록 하기 위해서, [학습자마다 교육 기간을 다르게 할 필요가 있다는 것]을 받아들일 준비가 되어 있는가? 이러한 질문에 답하는 것은 시사 추론에 귀중한 증거를 제공할 것이다.

Presently we know that programs graduate learners they believe are not ready to care for patients without supervision (Jonker et al. 2020). Conversely, however, are we as a medical education community ready to accept that programs may need interlearner variation in training duration to ensure that all graduates meet the same standards of readiness for unsupervised practice? Answering these questions would provide valuable evidence for the implications inference.

프로그램과 학습자에게 미치는 결과에 관한 증거 또한 중요하다. 학습자 간 차이inter-learner valiability을 감안할 때, 개별화된 훈련 경로와 훈련 기간이 변동가능한 프로그램을 어떻게 만들 것인가? 얼마나 실현 가능할까요? 시간-가변 시스템을 운영하기 위해 강력하고 방어 가능한 평가 프로그램을 개발하는 것은 고려해야 할 과제와 추가 연구가 필요하다(Gruppen et al. 2018). 이러한 잠재적 결과에 적응하려면 라이센스 요건 및 규정을 수정해야 합니다. 적응함에 따라 개별화된 훈련 경로에 장벽을 제시하는 현재 규정을 탐색하는 방법도 시사 추론의 일부이다.

Evidence regarding consequences to programs and learners is also important. Given the interlearner variability, how would programs develop individualized training pathways and variability in training duration? How feasible would this be? Developing programs of assessment that are robust and defensible to operationalize a time-variable system presents challenges that need to be considered and further studied (Gruppen et al. 2018). Licensure requirements and regulations will need to be modified to adapt to these potential consequences. As they adapt, ways to navigate the current regulations that present a barrier to individualized training pathways are also part of the implications inference.

검증의 다음 단계: 우리의 노력 집중하기
Next steps in validation: Focusing our efforts

CBME에 대한 비판의 대부분은 [구현에 대한 조정된coordinated 접근법의 결여], [심리측정과 및 물류 문제], [타당도 근거의 결여] 등을 지적한다. 이러한 주장을 포괄적 위임 의사 결정으로 확대하려면 감독되지 않은 실습에 대한 훈련생의 준비에 대한 건전한 결정이 이루어지고 있는지 규제당국과 대중을 보장하기 위해 타당성 증거를 모으는 것이 필수적이다. (Downing 2003) 평가의 필수불가결한 요소임에도 불구하고, 타당성은 종종 구현 노력을 위해 강조되지 않거나 대체된다(Wijnen-Meijer et al. 2013). 

Much of the criticism about CBME points toward a lack of a coordinated approach to implementation (Dauphinee et al. 2019), psychometric and logistical challenges (Norman et al. 2014), and lack of validity evidence (Lurie et al. 2011). Extending these arguments to summative entrustment decision-making, it is imperative that validity evidence be assembled to ensure regulators and the public that sound decisions are being made about trainees’ readiness for unsupervised practice. Despite being the sine qua non of assessment (Downing 2003), validity is often de-emphasized or displaced in favor of implementation efforts (Wijnen-Meijer et al. 2013).

[타당화validation]은 결정의 영향을 받는 이해 당사자들이 [결과적인 해석과 사용에 대한 개연성있는plausible 주장이 이루어진 것으로 만족할 때까지 계속되는 증거 수집 과정]이다. 끝이 없어 보이지 않는 이 과정은 시간, 에너지, 사람, 돈과 같은 귀중한 자원을 쉽게 소비할 수 있고, 우리는 가치를 극대화하기 위해 우리의 노력을 집중해야 한다. 사실, 이것은 케인의 증거 체인 프레임워크를 사용하는 강점이다: 가장 약한 고리가 가장 많은 관심을 받을 수 있고 받아야 한다.
Validation is an ongoing process of evidence collection that continues until stakeholders affected by decisions are satisfied that a plausible argument for the resulting interpretations and uses has been made. This seemingly unending process could easily consume precious resources such as time, energy, people, and money, and we should focus our efforts to maximize value. Indeed, this is a strength of using the evidentiary chain framework of Kane: the weakest links can and should receive the most attention.

더 앞으로 나아가기 위해서, 포괄적 위임 결정의 경우 최종 두 가지 추론, 즉 [외삽과 함의]에 가장 주의를 기울일 가치가 있다고 믿는다. CBME는 일반인에 대한 보증assurance에 뿌리를 두고 있고, EPA는 환자 치료에 뿌리를 두고 있기 때문에, 우리는 [총괄적 위임 결정]이 실제 임상 치료에 영향을 미친다는 증거가 없이는 강력한 타당도 논쟁을 할 수 없다. [개별 제공자에 대한 치료의 귀속 부정확성이 있고, 합의된 임상적 척도가 부족하고, 데이터 투명성과 기밀성 문제]가 있기에, 이런 것을 감안할 때 어려운 일이겠지만, 우리는 이 과제에 착수해야 한다. 마찬가지로, 우리는 포괄적 위임 결정을 사용하는 학습자, 프로그램 및 환자에 대한 결과를 연구해야 한다. CBME의 초석은 졸업생이 환자의 요구를 충족할 수 있도록 준비하기 위해 원하는 교육 결과를 식별하고 이러한 결과를 충족시키기 위한 커리큘럼과 평가 프로그램을 설계하는 것이다. 만약 우리가 위임의 결과를 연구하지 않는다면, 우리는 우리가 CBME를 구현하고 있다는 바로 그 개념을 약화시킬 것이다. 

Moving forward, we believe that for summative entrustment decisions the final two inferences, extrapolation and implications, deserve the most attention. As CBME has its roots in assurances to the public, and EPAs are rooted in patient care, we cannot have a strong validity argument without evidence that summative entrustment decisions have implications for actual clinical care. This is challenging given the imprecision of attribution of care to an individual provider (Schumacher et al. 2020c), the lack of agreed-upon clinical measures, and issues with data transparency and confidentiality (Smirnova et al. 2019), but we must rise to the task. Similarly, we must study the consequences to learners, programs, and patients of using summative entrustment decisions. The cornerstone of CBME is identifying desired training outcomes to prepare graduates to meet the needs of patients and designing curricula and programs of assessment to meet those outcomes. If we do not study the consequences of entrustment, then we undercut the very notion that we are implementing CBME.

 


Med Teach. 2021 Jul;43(7):780-787.

 doi: 10.1080/0142159X.2021.1925642. Epub 2021 May 21.

On the validity of summative entrustment decisions

Claire Touchie 1 2Benjamin Kinnear 3Daniel Schumacher 4Holly Caretta-Weyer 5Stanley J Hamstra 6 7Danielle Hart 8Larry Gruppen 9Shelley Ross 10Eric Warm 11Olle Ten Cate 12ICBME Collaborators

Affiliations expand

  • PMID: 34020576
  • DOI: 10.1080/0142159X.2021.1925642AbstractKeywords: Assessment: general; learning outcomes: decision-making; teaching and learning: work-based.
  • Health care revolves around trust. Patients are often in a position that gives them no other choice than to trust the people taking care of them. Educational programs thus have the responsibility to develop physicians who can be trusted to deliver safe and effective care, ultimately making a final decision to entrust trainees to graduate to unsupervised practice. Such entrustment decisions deserve to be scrutinized for their validity. This end-of-training entrustment decision is arguably the most important one, although earlier entrustment decisions, for smaller units of professional practice, should also be scrutinized for their validity. Validity of entrustment decisions implies a defensible argument that can be analyzed in components that together support the decision. According to Kane, building a validity argument is a process designed to support inferences of scoring, generalization across observations, extrapolation to new instances, and implications of the decision. A lack of validity can be caused by inadequate evidence in terms of, according to Messick, content, response process, internal structure (coherence) and relationship to other variables, and in misinterpreted consequences. These two leading frameworks (Kane and Messick) in educational and psychological testing can be well applied to summative entrustment decision-making. The authors elaborate the types of questions that need to be answered to arrive at defensible, well-argued summative decisions regarding performance to provide a grounding for high-quality safe patient care.

시험의 타당도에서 구인 타당도로, 그리고 다시 회귀? (Med Educ, 2012)
From test validity to construct validity … and back?
Jerry A. Colliver,1 Melinda J. Conlee1 & Steven J. Verhulst2

 

 

도입 Introduction

타당성의 개념은 지난 세기 동안 [시험 타당성의 기본 개념]이라고 불릴 수 있는 것에 초점을 맞춘 접근 방식에서, (오늘날 타당성의 중심 또는 통일적인 아이디어로 부상한 현재 관점인) [구인 타당도]로 발전해오는 주요한 변화를 겪었다.1-4 사고의 초점은 [시험의 타당성]에서 [시험 점수 해석의 타당성]으로 이동했다. 그러나, 이러한 생각의 변화는 타당성의 개념과 타당성 주장의 신뢰성을 약화시킨 것으로 보인다. 

The concept of validity has undergone major changes throughout the last century, evolving from an approach that focused on what might be called the fundamental concept of test validity to the current view, construct validity, which has emerged as the central or unifying idea of validity today.1-4 The focus of thinking has shifted from the validity of the test to the validity of test score interpretations. However, this shift in thinking seems to have weakened the concept of validity and the credibility of validity claims. 

시험 타당성의 기본 개념
The fundamental concept of test validity

타당도의 기본 개념은 [시험 또는 측정 도구가 측정하고자 하는 것을 측정하는지 여부]를 나타냅니다. 

  • 1927년에 켈리는 이렇게 말했다. : '…시험은 측정할 대상을 측정하면 타당하다.'
  • 1954년에 아나스타시는 이렇게 말했다:  '…즉, 테스트가 실제로 측정하고자 하는 것을 측정하는 정도입니다...’

시험이 실제로 측정할 목적을 측정하는지 여부를 결정하기 위해, 다양한 방법 또는 접근법이 개발되고 채택되었다. 
이러한 것들은 처음에는 '타당도 유형'이라고 불렸다.

The fundamental concept of validity refers to whether a test, or a measurement instrument, measures what it purports to measure.

  • In 1927, Kelly said: ‘…a test is valid if it measures what it purports to measure.’10 
  • In 1954, Anastasi wrote: ‘…validity, i.e. the degree to which the test actually measures what it purports to measure...’11 

To determine whether a test in fact measures what it purports to measure, various methods or approaches have been developed and employed; these were initially referred to as ‘validity types’.

20세기 전반에는 타당성을 결정하는 주요 접근법이 [준거 타당성]과 [내용 타당성]이었다. 이는 곧 테스트 자체의 속성을 나타냅니다. 즉, 테스트가 측정할 기준(현재 또는 미래)의 정확한 추정치를 제공하는지 여부와 테스트가 측정해야 할 행동의 세계를 적절하게 나타내는지를 의미한다. 20세기 중반까지 준거 타당성(동시성과 예측성)과 내용 타당성이 곧 타당성 유형the validity type이었는데, 이는 시험 타당성을 확립하기 위해 주로 사용된 방법이다.

In the first half of the 20th century, the primary approaches to determining validity were criterion validity and content validity.1, 12 These referred to properties of the test itself: that is, whether the test provides an accurate estimate of the criterion it purports to measure (current or future) and whether the test adequately represents the universe of behaviours it is supposed to measure. Up to the middle of the 20th century, criterion validity (concurrent and predictive) and content validity were the validity types – the primary methods used to establish test validity.

명명학적 네트워크를 기반으로 타당성 구성
Construct validity based on nomological networks

그 후 1954년 미국심리학회는 심리 테스트 및 진단 기법에 대한 기술 권고안에서 기준이나 행동의 우주 측면에서 명시적으로 정의할 수 없는 이론적 속성이나 자질을 검증하기 위한 [구인 타당성construct validity] 개념을 도입했다. 크론바흐와 뮐은 기술 권고 위원회의 위원(위원장직을 맡았음)이었고, 1955년에 그들은 [구인 타당성과 관련된 증거를 얻기 위한 검증 절차]를 식별한 그들의 고전 논문 '심리 테스트의 구인 타당성'을 발표했다. 
Then, in 1954, the American Psychological Association, in its Technical Recommendations for Psychological Tests and Diagnostic Techniques,13 introduced the idea of construct validity to validate theoretical attributes or qualities that cannot be explicitly defined in terms of a criterion or a universe of behaviours. Cronbach and Meehl were members of the Technical Recommendations Committee (Cronbach was chair) and, in 1955, they published their classic paper, ‘Construct validity in psychological tests’,4 which identified validation procedures to obtain evidence relevant to construct validity. 

크론바흐와 밀이 제안한 증거는 준거 타당성과 내용 타당성의 다양한 측면을 포함했는데, 따라서 [구인 타당성]이 새로운 '유형type', 즉 세 번째 유형의 타당도가 아니었다. 그보다, 구인타당도를 [통합적인 타당성 개념]으로 보았고, 이는 타당성에 대한 모든 사고를 포괄하는 개념적 우산으로서, 타당도에 대한 통일된 개념을 대표한다. 이와 같은 단일화unification를 가능하게 한 크론바흐와 뮐의 사고 밑바탕에 깔린 혁명적 아이디어는 과학적 이론 시험이 시험 타당성의 일부이자 핵심으로 간주되고, [시험 타당성]은 이론 검증, 또는 '가설 시험으로서의 타당화validation as hypothesis testing'에 의해 결정된다는 것이었다.
This evidence included various aspects of criterion validity and content validity, such that construct validity came to be seen as the unifying concept of validity – not a new ‘type’ of validity, a third type to be added to criterion validity and content validity – but a conceptual umbrella that covered all thinking about validity, represented a unifying conceptualisation of validity.2, 12 The revolutionary idea underlying Cronbach and Meehl’s thinking – which made the unification possible – was that scientific theory testing was seen as part and parcel of test validity, that test validity was determined by theory testing, or ‘validation as hypothesis testing’ as one author described it.14

구인 타당성 이론에서, 구인(예: 지능, 임상적 추론, 공감, 탈진, 전문성, 시스템 기반 실습 등)은 [다른 구인들의 네트워크에서의 위치에 의해 정의되는 가정적이거나 이론적인 개념]이다. 네트워크 구조들 사이의 관계는 구조를 연결하고 네트워크를 형성하는 과학적 법칙에 의해 정의된다. Cronbach와 Mehl은 이것을 '법칙적 관계망nomological network'라고 불렀는데, 이것은 기본적으로 [여러 구인을 서로 관련시키는 법칙의 네트워크]를 의미하며, 이것이 곧 과학 이론scientific theory이다.4

In construct validity theory, the construct (e.g. intelligence, clinical reasoning, empathy, burnout, professionalism, systems-based practice, etc.) is a postulated or theoretical concept that is defined by its position in a network of other constructs. The relationships among the constructs in the network are defined by scientific laws that link the constructs and form the network. Cronbach and Meehl referred to this as a ‘nomological network’, which is basically a network of laws that relates constructs: scientific theory.4 

이론을 구성하는 데 관련된 법칙(laws)들로 짜여진 설명체계를 말한다. 논리실증주의적 관점에서 이론적 개념(construct)을 타당화하는 방략으로 제시된 개념으로 여기서의 법칙은 어떤 이론적 개념이 발생하는 논리를 말한다.

구인 타당성은 [(타당도를 확인하고자 하는) 특정 구인을 포함하는 다른 구인들과 법칙들의 법칙적 관계망을 뒷받침하는 모든 증거]에 의해 확립된다. 구인 타당도 개념을 도입하면서, 타당성 개념에 대한 이해는 [시험이 측정할 목적을 측정하는지]의 문제에서, [법칙적 네트워크에 의해 명시된 (측정대상) 구인과 다른 구인들 사이의 관계]로 이동하였다.
Construct validity, then, is established by any evidence that supports the nomological network of constructs and laws that contains the construct. With the introduction of construct validity, understandings of the concept of validity shifted from the issue of whether a test measures what it purports to measure to the relationship(s) between the construct and other constructs as specified by the nomological network.

[구인 타당성 이론]은 그 당시 과학 심리학을 지배했던 과학 철학, 즉 논리 실증주의와 일치했기 때문에 그 당시 (1950년대 중반에) 호소력이 있었다.2, 15 실증주의자들은 과학 이론에서 '현실'에 대한 어떠한 언급도 피하고 싶었고, 이론 자체와는 다른 어떤 것을 언급하는 것으로 보이는 이론적 용어(구인)의 사용을 비판했다. 그들은 이러한 실천을 [메타물리학적meta-physical]인 것으로 보았으며, 과학에는 설 자리가 없다고 생각했다. 
Construct validity theory was appealing at the time (in the mid-1950s) because it was consistent with the philosophy of science that dominated scientific psychology, namely, logical positivism.2, 15 Positivists wanted to avoid any reference to ‘reality’ in scientific theory and criticised the use of theoretical terms (constructs) that claimed to refer to something apart from the theory itself; they saw this practice as meta-physical and thought it had no place in science. 

실증주의자들은 과학 이론의 구조에 대한 정교한 견해를 발전시켰다. 이 견해에서, [이론적 용어]는 [다른 이론적 용어들]과 연관성의 관점에서 정의되었고, 과학 법칙에 의해 관찰 가능한 것이었으며, 현실reality에 대한 언급은 하지 않아야 했으며, 어떠한 메타-물리학도 포함하지 않는 것이었다. 간단히 말해서, [구인]은 현실에 대한 언급이 아닌, [다른 구인과의 관계]에 의해 정의되었다. 

Positivists developed an elaborate view of the structure of scientific theory in which theoretical terms were defined in terms of their ties with other theoretical terms and observables by scientific laws, without any reference to reality, involving no meta-physics. In brief, constructs were defined by relationships with other constructs, not by reference to reality. 

Cronbach와 Mehl은 [실증주의적 프레임워크에 타당화validation을 통합]했으며, [타당도는 이론의 검증에 의해 결정된다]고 제안했다. 그러므로, 구인 타당성 이론은 측정된 심리적 구인에 대한 현실주의적realist 주장을 피할 수 있었으며, 그렇지만 [네트워크에 대한 증거]를 통해 구인의 타당성에 대한 명백하고 엄격한 테스트를 제공할 수 있었다. 그렇다면 타당성은 전체 네트워크에 의해 서포트 된다: 기발한 아이디어가 아닌가!

Cronbach and Meehl incorporated validation into the positivist framework and proposed that validity be determined by theory testing. Thus, construct validity theory could avoid realist claims about measured psychological constructs, and yet provide an explicit rigorous test of the validity of a construct via evidence for the network. Validity, then, is supported by the entire network: an ingenious idea!


그러나, 대부분의 경우 의학 교육(또는 심리학 또는 교육)에는 [법칙적 네트워크]가 없었고, 구인과 관찰가능성을 명시적으로 연결하는 [과학적 법칙 체계]도 없으며, 검증해야 할 [구인에 대한 이론]도 없고, 심지어 [타당성을 확립하는 데 어떤 종류의 이론이 필요한지]와 비슷한 무언가도 없었기에 문제가 되었다. 원래 구인 타당도 이론을 제시하면서 크론바흐와 뮐은 다음과 같이 강조했다: '[시험이 구인을 측정한다]는 주장을 입증하려면, 개념을 둘러싼 법칙적 관계망이 존재해야 한다.'4 그러나 그들은 '현재의 심리학 법칙의 모호성'도 인정했다. 그러면서 '심리학은 조잡하고 부분적으로만 명시적인 공식crude, half-explicit formulation을 통해 작동한다.'4 그의 기대는 결국, 더 많은 연구와 함께, 이론적 개념과 그들의 관계가 명확해지고 심리학에 대한 명백한 이론이 출현할 것이라는 것이었다. 그러면 구인 타당성 접근법이 가능해질 것이다. 하지만 심리학은 처음 제안되었을 때보다 지금 이것에 더 가까워지지 않은 것 같다.9

However, this is problematic because for the most part there are no nomological networks in medical education (or psychology or education); there are no systems of scientific laws that explicitly link constructs and observables, and there is no theory of the construct to test, or at least nothing of the sort needed to establish construct validity. Originally, in laying out construct validity theory, Cronbach and Meehl emphasised that: ‘To validate a claim that a test measures a construct, a nomological net surrounding the concept must exist.’4 However, they also acknowledged the ‘vagueness of present psychological laws’ and said: ‘Psychology works with crude, half-explicit formulations.’4 The expectation was that eventually, with further research, theoretical concepts and their relationships would be clarified and an explicit theory (a nomological network) of psychology would emerge. Then the construct validity approach would become possible. Yet psychology doesn’t seem to be any closer to this now than when it was first proposed.9

해석 및 주장에 기초한 구인 타당도 
Construct validity based on interpretation and argument

구인 타당도 접근방식을 유지하기 위해 겉보기에는 덜 엄격한 기준인 해석과 논쟁은 타당성 확립을 위한 명명학적 네트워크와 엄격한 이론 테스트를 대체했다.

  • Messick은 Educational Measurement 3판(1989년)에서 '타당성'에 대한 장을 시작하면서 다음과 같이 썼다. '…검증해야 할 것은 시험이나 관찰 장치가 아니라, 시험 점수 또는 기타 지표에서 도출된 추론이다. 이는 곧, 점수 의미나 해석 및 해석이 수반하는 조치에 대한 [함축적 의미에 대한 추론]이다.'
  • 유사하게, KaneEducational Measurement 제4판 (2006)에서 '타당화'에 관한 장을 다음과 같이 마무리했다.: 타당화는 [제안된 해석 및 측정 사용의 평가]이다. [해석적 주장interpretive argument]은 [제안된 해석과 사용에 내재된 추론과 가정에 대한 명확한 진술]을 제공한다. [타당성 주장]는 [해석적 주장의 일관성] 및 [추론과 가정들의 개연성에 대한 평가]를 제공한다.'


To salvage the construct validity approach, seemingly less stringent criteria – interpretation and argument – have replaced nomological networks and rigorous theory testing for establishing validity.

  • Messick, in opening his chapter on ‘Validity’ in the third edition of Educational Measurement (1989), wrote: ‘…what is to be validated is not the test or observation device as such but the inferences derived from test scores or other indicators – inferences about score meaning or interpretation and about the implications for action that the interpretation entails.’2 
  • Similarly, in the fourth edition of Educational Measurement (2006), Kane concluded his chapter on ‘Validation’ by saying: ‘Validation involves the evaluation of the proposed interpretations and uses of measurements. The interpretive argument provides an explicit statement of the inferences and assumptions inherent in the proposed interpretations and uses. The validity argument provides an evaluation of the coherence of the interpretive argument and of the plausibility of its inferences and assumptions.’3 

따라서, 현재의 [구인 타당도 접근법]은 [대상 구인에 대한 해석을 위한 증거]에 기초하여 타당성 논거를 확립하려는 방식이라고 할 수 있다. 설득력 있게 [구인 타당도를 확립하는 방법]은 더 이상 ['이론적 용어의 의미를 고칠 수 있는' 엄격한 법칙적 네트워크]의 프레임워크 안에서 성립하는 것이 아니다. 

The current construct validity approach, then, seeks to establish a validity argument based on evidence for an interpretation of the target construct, but no longer within the framework of a rigorous nomological network that can ‘fix the meaning of theoretical terms’ in a way that can convincingly establish the validity of the construct.7

Kane은 다음과 같이 인식했다. '…타당화를 진행하기 위해서는 제안된 해석과 용도를 명확히 명시해야 한다.' 그러나, 현실에서는, 해석과 주장에는 '글루(예측, 검증, 확인의 정밀도)'가 부족한 것으로 보인다. 이 '글루'는 법칙적 네트워크에 의해 제공되는 [가정된 이론적 구인]에 대한 [측정의 타당성]에 대한 신뢰도를 제공하는 데 필요하다고 볼 수 있다. 연구자들은 50년 전 크론바흐와 뮐이 우려했던 '모호하고 부분적으로만 명시적인 공식'을 해결해야만 했다. 보르스붐 등이 쓴 바를 빌리자면 '[시험 점수 해석]이라는 개념은 너무 일반적too general이다.'

Kane recognised that: ‘…for validation to go forward, it is necessary that the proposed interpretations and uses be clearly stated.’3 However, in practice, interpretation and argument seem to lack the ‘glue’– the precision in prediction, testing and confirmation – needed to provide the confidence in the validity of the measurement of the postulated theoretical construct that was afforded by a nomological network. Researchers are left with vague, half-explicit formulations of the type that concerned Cronbach and Meehl 50 years ago. As Borsboom et al. wrote: ‘The notion of a test score interpretation is too general.’9 

예를 들어 추론(해석 및 주장)은 일반적으로 [구인과 다른 변수 간의 상관 관계]를 포함하지만, [대부분의 변수]가 다른 변수와 어느 정도(특히 표본이 충분히 큰 경우) 상관되어 있다는 점을 감안할 때, [명시적 이론]이 없는 상태에서 상관 관계는 타당성에 대해 정보를 제공한다고 보기 어렵다. 수렴 및 발산 타당성 및 다중 특성-다중 방법 행렬은 현재의 구인 타당성 접근법과 함께 사용할 것이 일반적으로 권장되지만, 타당성을 확립하기 위해서는 [훨씬 더 명확한 이론이 필요]하다. 기껏해야 어떤 [하나의 상관 관계]가 [다른 상관 관계]보다 높다는 것을 보여주는 이러한 타당성 주장은 약합니다.
For example, inferences (interpretation and argument) commonly involve correlations between the construct and other variables, but, given that most variables are correlated with most other variables to some degree (especially with large enough samples),16 correlations without an explicit theory are not informative about validity. Convergent and discriminant validity and multitrait–multimethod matrices17 are commonly recommended for use with the current construct validity approach, but they require even more explicit theory to establish validity. At best, these validity arguments are weak, showing that one correlation is higher than another.7


현재의 구인 타당도 접근법은 다양한 '다양한 출처의 타당성 증거'를 보고하는 것에 더 초점을 맞춘 것으로 보인다. ('Standards for Educational and Psychological Testing'에서 권장하는 '타당도 유형validity type'의 현재 버전). 이는 마치 '증거'에 더 큰 중점을 둠으로써, 법칙적 네트워크의 결여로 인해 뒤따르는 [구인 타당도 이론 검증]의 약화를 보완하려는 것처럼 보인다. 이는 타당성 주장의 근거와 해석으로부터 주의를 딴 데로 돌린 것으로 보인다. 그런 다음 테스트를 검증하려는 연구자들은 '여러 출처sources'의 범주 중 하나에 부합하는, 사용가능한 증거를 나열하는 것처럼 보이지만, 이것이 검사의 타당성을 어떻게 지지하는지는 보여주지 않는다(심지어 때로는 그렇지 않은 것처럼 보일 수도 있다). 
The current construct validity approach seems to have come to focus more on reporting various ‘sources of validity evidence’18-20 (the current version of ‘validity types’, as recommended in the ‘Standards for Educational and Psychological Testing’18), as if to compensate for the lack of nomological networks and the subsequent weakening of the theory testing part of construct validity by placing greater emphasis on ‘evidence’. This seems to have diverted attention from the rationale and interpretation of the validity argument. Researchers attempting to validate a test then appear to list available evidence that fits into one of the ‘sources’ categories, but without showing how this supports the validity of the test (and at times it appears that it does not). 

즉, 온갖 종류의 상황적 증거가 [해석/타당성 주장(훈련, 성별 차이, 내부 일관성, 요인 또는 차원의 수와 이름, 다른 변수와의 상관관계 등)]을 위하여 인용된다. 그러나 그러한 증거들(남성보다 점수가 높거나 낮거나, 3요소 구조 대 4요소 구조 또는 점원이 2학년 학생보다 더 우수한 성적을 보인다.)은 애초에 도구가 측정하고자 하는 것(예: 비판적 사고, 임상적 추론, 공감, 번아웃, 전문직업성)을 실제로 측정하는지, 혹은 검사가 타당한지에 대한 확신을 직접적으로 확보해주지는 않는다.
That is, all sorts of circumstantial evidence are cited for the interpretation/validity argument (such as improvement in scores with training, gender differences, internal consistency, number and names of factors or dimensions, and correlations with other variables). However, that evidence (females have higher or lower scores than males, or a three-factor structure versus a four-factor one, or clerks perform better than second-year students, etc.) does not establish directly with confidence that the instrument actually measures what it purports to measure (such as critical thinking, clinical reasoning, empathy, burnout, professionalism) and that the test is valid.

그리고 돌아갔나요?
And back?

[구인 타당도]는 기발한 아이디어였지만, 기대에 부응하지 못하고 있다. 핵심적인 이유는 측정된 구인의 엄격한 검증이나 타당화를 가능하게 하는 심리학과 교육(및 의학 교육)의 [명시적 이론이 부족]하기 때문이다. 지난 10년 동안 암스테르담 대학의 자극적인 일련의 논문에서 보르스붐 등은 심리학에서 이론 용어의 상태, 특히 구인 타당성 접근방식을 고려했고 이것이 '구인 타당성의 종말'이라고 결론지었다. 2009년에 그들은 이렇게 썼습니다. '심리학은 다만 1955년에 실증주의에서 요구되었던 [법칙적 네트워크]를 가지고 있지 않을 뿐이다. 명확한 것은 물론, 모호한 것조차 없었고, 여전히 오늘날에도 존재하지 않는다. 이러한 이유로, 구인 타당도에 대한 생각은 그것이 태어났을 때 이미 죽어있었다…[그것은] 어떤 연구 활동도 보지 못했다.'9
Construct validity is an ingenious idea, but it has not lived up to expectations, primarily because explicit theory in psychology and education (and medical education) that would allow for the rigorous testing or validation of a measured construct is lacking. In the last decade, in a stimulating series of papers from the University of Amsterdam, Borsboom et al.9 have considered the status of theoretical terms in psychology, in particular the construct validity approach, and concluded that this is ‘the end of construct validity’. In 2009, they wrote: ‘Psychology simply had no nomological networks of the sort positivism required in 1955, neither vague nor clear ones, just as it has none today. For this reason, the idea of construct validity was born dead … [it] never saw any research action.’9

[구인 타당도]에 대한 우려에 대응하여, 이 저자들은 (실증주의를 거부하고) 측정에 대한 [현실주의적realist 접근방식]을 제안한다. 여기서 '측정measurement'은 [속성 자체의 변동variation]과 [측정 결과 또는 시험 점수의 변동variation] 사이의 인과causal 관계의 관점에서 정의된다. 이 '실제 및 인과 분석realism and causal analysis' 관점에서는 '측정 행위란 (포괄적으로 해석된) 도구와 크기magnitudes 사이의 인과관계의 산물'이다. '크기 또는 수량(속성, 프로세스, 상태, 이벤트 등)은 측정하려는 시도와 무관하게 존재한다'. 이러한 생각은 측정 도구의 타당성 검사를 위한 새로운 방법을 확립하기 위한 것이 아니라, 측정의 정의를 논할 때 [측정할 수 있는can be 것]과 [측정으로 간주되는counts as 것]의 측면에 더 관심을 두는 것이다.
In response to concerns about construct validity, these authors propose a realist approach to measurement (after the positivist ban), in which measurement is defined in terms of a causal relationship between variation in the attribute itself and variation in the measurement outcome or test score.7-9 This ‘realism and causal analysis’ view sees ‘the act of measurement as a product of a causal relationship between an instrument (broadly interpreted) and a magnitude’: ‘The magnitudes or quantities (properties, processes, states, events, etc.) exist independently of attempts to measure them.’21 This thinking is not aimed at establishing new methods for the validation of a measurement instrument, but, rather, is more concerned with the definition of measurement in terms of what can be measured and what counts as measurement.

모든 실용적인 목적에서, 이 다소 추상적인 철학적 주장은 [구인의 측정]과 ['속성attributes'이라고 불릴 수 있는 것의 측정] 사이에서의 구별이라는 관점에서 생각함으로써 이해될 수 있다. 여기서 논의된 바와 같이,

  • 구인(Constructs)은, 법칙적 관계망 또는 그와 유사한 것으로부터 의미가 부여되기에, [다른 아이디어와 함께 연결된 아이디어]로만 존재하는 [추상적인 이론적 용어]이다. 따라서 [구인의 타당화]는 상관 관계에서의 중심성이 된다.
  • 속성(Attributes)은, [이론과 별개로 존재하는 것]으로 생각되며, [도구에 의해 측정된 결과는 속성에 의해서 인과적으로 결정된다]. 속성은 단순한 이론적 아이디어 이상으로 간주된다; 오히려, 그것들은 측정과는 독립적으로 존재하며 측정 결과를 야기하는 역할을 한다고 생각된다.21 

For all practical purposes, this somewhat abstract philosophical argument can be understood by thinking in terms of the distinction between the measurement of constructs versus the measurement of what might be called ‘attributes’.

  • Constructs, as discussed here, are abstract theoretical terms which are given their meaning by a nomological network or some approximation thereof (interpretation and argument) and exist only as ideas tied together with other ideas – hence the centrality of correlations in construct validation.
  • Attributes, on the other hand are thought to exist apart from theory, and are measured by instruments for which outcomes are causally determined by the attribute. Attributes then are considered to be more than just theoretical ideas; rather, they are thought to exist independently of their measurement and serve to cause the measurement outcome.21 

예를 들어, 

  • [키, 체중, 혈압 및 학업 성과]는 (암묵적으로 또는 명시적으로) 측정과는 별개로 존재하는 속성attributes으로 가정될 수 있다. 또한 이러한 속성에서 variation이 존재한다면, 눈금자, 중량계의 균형, 압력 측정띠, GPA으로 측정값에 변화를 유발할 것이다.
  • 그러나 [추상적인 이론적 구인(예: 비판적 사고, 임상추론, 번아웃, 공감, 전문직업성, 시스템 기반 실습 등)]이 [이론과 별개로 존재한다]는 가정은 설득력이 떨어지며, 각 구인이 [측정도구에서 확인된 변화]가 [속성의 변화]에 의해 야기되는지는 명확하지 않다.
  • For example, height, weight, blood pressure and scholastic performance can be implicitly or explicitly assumed to be attributes that are out there apart from measurement, and variations in these attributes cause variations in their measurements with a metre stick, pan balance, pressure cuff and grade point average, respectively.
  • However, abstract theoretical constructs (like critical thinking, clinical reasoning, burnout, empathy, professionalism, systems-based practice, etc.) cannot convincingly be assumed to be out there apart from theory, and it is not clear that variation in their respective measurement instruments is caused by variation in the attributes.

대학원 의학 교육 인증 위원회가 제안한 핵심 역량과 같은 역량 기반 교육 목표 평가에 대해 루리 외 연구진.22에 의해 유사한 우려가 제기되었다.23 그들의 우려는 [교육적 역량]이란 '이해당사자들 간의 협상에 의해 형성되는' '정치적 구조'이며, '실증적 근거를 보여준 적은 없는 듯 하다.' 라는 점이었다. 철학자 존 설은 사회적 현실의 구성에 관한 그의 글에서도 비슷한 차이를 보이고 있는데, 존 설은 '확고한 사실brute facts'과 '사회적 또는 제도적 사실social or institutional facts'을 구분하였다. '확고한 사실'은 실제로 존재하는 것으로 생각되는 사실(속성)을 언급하는 반면, '사회 제도적 사실'은 인간의 사고에 국한된 단순한 아이디어 또는 개념을 의미한다. 둘 다 인간의 사회적 구성이지만, 전자는 '현실주의적 헌신'을 가지고 있는 반면, 후자는 '더 많은 이론'에 근거한 이론만을 언급한다.
Similar concerns are raised by Lurie et al.22 about the assessment of competency-based educational objectives such as the core competencies proposed by the Accreditation Council for Graduate Medical Education.23 Their concern is that educational competencies are ‘political constructs’ that are ‘shaped by negotiations among stakeholders’ and ‘do not seem to have any demonstrated empirical basis’.22 Philosopher John Searle makes a similar distinction in his writings on the construction of social reality, in which he distinguishes between ‘brute facts’ and ‘social or institutional facts’.24 The former refers to facts (attributes) that are thought to really exist out there, whereas the latter are acknowledged to be simply ideas or concepts that are limited to human thinking. Both are human social constructions, but the former has ‘realist commitments’ and the latter refers only to theory based on more theory.

Borsboom 등이 제시한 이러한 [속성 기반attribute-based 측정 관점]은 새로운 타당성 유형이나 새로운 타당성 이론이 아닌 과학적 측정의 본질을 설명하려고 시도한다

  • 첫째, 이러한 저자들의 말에 따르면: '만약 어떤 것이 존재하지 않는다면, 그것을 측정할 수 없다.' 

[구인 타당도]를 주장하는 이론가들은 [다른 추상적 이론적 구인의 네트워크]에 대한 레퍼런스를 통해서 [추상적 이론적 구인]를 정의하고 존재하게 하는 실증주의 기반 시스템을 제안했지만, 논의된 바와 같이, 이것은 성공하지 못했다; 반대로, 이러한 구인들이 어떤 식으로 존재할 수 있는지는 명확하지 않다.

  • 둘째, 보르스붐 등은 다음과 같이 쓰고 있다: '문항 관리'와 '문항 응답' 사이에 발생하는 일련의 사건에서, [측정된 속성]은 측정 결과가 어떤 가치를 가질 것인지를 결정하는 데 인과적 역할을 해야 한다. 

This attribute-based view of measurement presented by Borsboom et al.6-9 attempts to describe the essence of scientific measurement, not just a new validity type or a new theory of validity.

  • Firstly, in these authors’ words: ‘If something does not exist, then one cannot measure it.’7 Construct validity theorists proposed a positivist-based system to define and give existence to an abstract theoretical construct by making reference to a network of other abstract theoretical constructs, but this, as discussed, has not been successful; otherwise, it is not clear in what sense constructs like these might exist.
  • Secondly, Borsboom et al. write: ‘Somewhere in the chain of events that occurs between item administration and item response, the measured attribute must play a causal role in determining what value the measurement outcomes will take.’7 

간단히 말해서, 그들은 측정이 '속성'으로 제한되어야 한다고 말하고 있다.
In brief, they are saying that measurement should be limited to ‘attributes’.

그럼에도 불구하고 Borsboom 등 6-9에서는 이러한 기준을 충족하는 측정치를 지칭하기 위해 '타당성'이라는 용어를 사용한다. 즉, 속성attributes이 (측정에 독립적으로) 존재한다고 생각할 수 있고, 그래서 속성이 측정 결과의 원인이 되는 경우, (측정)도구는 타당하다고 할 수 있다. 하지만 그렇지 않다면 속성을 측정한다고 볼 수 없으며, 타당하지 않다. 이것은 타당성의 일반적인 의미에 다른 반전을 주는데, 이것은 혼란스러울 수 있다. 또한, 이 관점에서 타당성은 all-or-nothing의 문제로 전환됩니다. 즉, 측정도구가 속성을 측정하거나(따라서 타당함), 측정하지 못한다(따라서 타당하지 않음). 

Nevertheless, Borsboom et al.6-9 use the term ‘validity’ to refer to measurements that meet these criteria: that is, if an attribute is thought to exist (independently of measurement) and causes the measurement outcomes, the instrument is said to be valid; otherwise, it does not measure the attribute and is not valid. This gives a different twist to the usual meaning of validity, which can be confusing. In addition, it makes validity into an all-or-nothing issue: either the instrument measures the attribute (and is valid) or it does not (and is not valid).

따라서 [수많은 외부 요인]이 [측정한 결과의 변동성variability을 증가시키는 방식]으로 측정 프로세스에 영향을 미칠 수 있습니다. 추가된 변동성variability의 근원은 일반화가능도 이론과 분석을 통해 평가할 수 있다(즉, 이는 일반화가능도 이론에 대한 최근의 사고와 일치하는 것으로 보인다). 따라서 측정도구는 타당하더라도, 측정값을 신뢰할 수 없을 수 있다. 즉, 측정도구는 속성을 측정할 수 있지만, 측정 프로세스에 개입하는 다른 요인이 측정 신뢰도에 영향을 미치는 irrelevant variance을 추가할 수 있습니다.

Be that as it may, numerous extraneous factors may affect the measurement process in ways that add to the variability of the outcome measures. The sources of the added variability can be assessed with generalisability theory and analysis (i.e. this seems consistent with recent thinking about generalisability theory25). Consequently, an instrument may be valid, but its measurements not reliable. That is, an instrument may measure an attribute, but other factors in the measurement process may add irrelevant variance that affects the reliability of the measurements.

 

결론 Conclusions

[구인 타당도]가 [명확한 현실적 참조자referent가 없는 심리적 구조를 타당화하는 방법]이라는 주장은 입증되지 못했다. 무엇보다 타당화의 엄격한 토대가 될 수 있는 의학 교육(및 심리학 및 교육)의 명시적 이론이 부족하기 때문이다. 해석과 주장은 실행 가능한 대체물viable substitutes이 아니다. 단순히 '표준'에서 권고하는 다양한 '타당성 증거의 출처' 범주에 들어맞는 사용 가능한 증거를 나열하는 것만으로는 [측정도구가 측정하고자 하는 것을 측정한다는 것]을 보여주지 못한다. 이러한 증거의 제시가 [법칙적 네트워크의 부족]을 해결하지 못한다. 대신, 타당성 개념을 약화시키고 타당성 주장의 신뢰성을 떨어뜨리는 것으로 보인다. 의학 교육에 대해서 이것이 갖는 일반적인 함의는 [검사 개발자와 사용자가 이론과 별개로 참조가 없고 실증적 근거가 없는 추상적 이론적 구인]을 사용하는 것의 가치를 재고해야 한다는 것이다. [구인 타당도 접근법]을 의학교육 연구를 위해 사용하는 것에 대해 심각하게 재고해봐야 한다.
Construct validity has not proven to be a way to validate psychological constructs that have no clear referent in reality because explicit theory in medical education (and in psychology and education) that can provide a rigorous basis for validation is lacking. Interpretation and argument are not viable substitutes: simply listing any available evidence that fits in the various ‘sources of validity evidence’ categories recommended in the ‘Standards’17-19 does not show that the instrument measures what it purports to measure. It does not resolve the lack of nomological networks. Instead, it seems to weaken the concept of validity and to undermine the credibility of validity claims. The more general implication for medical education is that test developers and users should reconsider the value of using abstract theoretical constructs that have no referent apart from theory and that have no demonstrated empirical basis.22, 23 The use of the construct validity approach should be seriously reconsidered for research in medical education.

의학교육에서 평가 연구와 실무는 특히 [의학교육에서 광범위하게 이뤄지고 있는 기록 보관]을 고려한다면, 훈련과 실무 전반에 걸쳐 종종 쉽게 이용할 수 있고 표준적인 보다 온건한 구체적인 지표(속성attributes)로 더 잘 제공될served 수 있다. 의학교육 연구의 주된 목적은 [추상적인 심리 유형 구인]으로 구성된 [추상적인 심리 유형 이론]을 확립하는 것이 아닌, 오히려, 더 실용적이고, 의학에서의 교수-학습을 더 잘 이해하기 위해 사용될 수 있는 기본 변수나 측정 사이의 관계를 결정하는 것을 목표로 해야 한다. 22 이것은 연구가 검증할 구성보다 연구의 영역에 더 집중해야 한다는 것을 암시한다. 

Assessment research and practice in medical education might be better served by more modest concrete indicators (attributes) that are often readily available and standard across training and practice, especially given the extensive record keeping in medical education. The primary purpose of research in medical education does not seem to be to establish an abstract psychological-type theory that consists of abstract psychological-type constructs, but, rather, is more practical and should be aimed at determining relationships among basic variables or measurements that can be used to better understand teaching and learning in medicine.22 This suggests that research should concentrate on areas of study more than on constructs to validate.

예를 들어, 전문직업성 분야의 연구는 [의대 성적 정보]와 [주 위원회 징계] 사이의 관계에 대한 귀중한 결과를 제공하는데, 이것은 매우 중요한 연구이면서, 이 연구를 위해 전문직업성이라는 구인을 가정postulation할 필요는 없다. 그러한 기본적인 척도(및 연구의 영역)에 초점을 맞추면 [추상적인 이론적 구인의 타당성을 확립하는 것]과 관련된 문제를 피할 수 있을 것이다. 그것은 또한 의학 교육에서 오랫동안 추구되어 온 [이론의 개발]이 [위에서 아래로 내려오는 것]보다 [아래에서 위로 이론을 만들고], 그 다음에 여러 연구의 결과를 결합하고, 그 목적을 위해 개발된 고차적 구인을 가지고 설명함으로써 더 잘 serve된다는 것을 보여준다.

For example, research in the area of professionalism provides valuable results about relationships between information in medical school records and state board disciplinary action, which is very important research but does not require the postulation of a construct of professionalism in order to do so.26 A focus on such basic measures (and areas of research) would avoid the problems associated with (and perhaps the impossibility of) establishing the validity of abstract theoretical constructs. It may also reveal that the development of long sought-after theory in medical education is better served by building theory from the bottom up rather than from the top down and by then combining the results of multiple studies and explaining them with higher-order constructs developed for that purpose.22

 


Med Educ. 2012 Apr;46(4):366-71.

 doi: 10.1111/j.1365-2923.2011.04194.x.

From test validity to construct validity … and back?

Jerry A Colliver 1Melinda J ConleeSteven J Verhulst

Affiliations expand

PMID: 22429172

DOI: 10.1111/j.1365-2923.2011.04194.xAbstract

Context: Major changes in thinking about validity have occurred during the past century, shifting the focus in thinking from the validity of the test to the validity of test score interpretations. These changes have resulted from the 'new' thinking about validity in which construct validity has emerged as the central or unifying idea of validity today. Construct validity was introduced by Cronbach and Meehl in the mid-1950s in an attempt to address the validity of those many psychological concepts that have no clear referent in reality. To do this, construct validity theory required a nomological network--an elaborate theoretical network of constructs and observations connected by scientific laws--to validate the constructs. However, nomological networks are hard to come by and none that would do the job required by construct validity has been forthcoming to date. Thus, the current construct validity approach has retreated to one of simply 'interpretation and argument', but this seems to be too general to tie down the constructs in the way a nomological network would do to give credibility to the validity of the construct. As a result, the concept of validity seems to have been watered down and the credibility of validity claims weakened.Methods: We present a critical review of these concerns about construct validity and provide for contrast a brief overview of a recently proposed view of measurement based on scientific realism and causality analysis.

Objectives: The purpose of this paper is to encourage a discussion of the use of construct validity in medical education, and to suggest that test developers and users reconsider the use of abstract theoretical constructs that have no referent apart from theory.

© Blackwell Publishing Ltd 2012.

암묵적이고 추론되는: 평가 과학에 도움이 되는 철학적 입장에 대하여(Adv Health Sci Educ Theory Pract. 2021)
Implicit and inferred: on the philosophical positions informing assessment science
Walter Tavares1 · Kathryn Hodwitz2 · Paula Rowland3 · Stella Ng4 · Ayelet Kuper5 · Farah Friesen6 · Katherine Shwetz7 · Ryan Brydges8

 

도입
Introduction

보건 분야의 교육자들은 평가를 체계화할 때 점점 더 역설적인 상황에 직면한다. 한편, 평가의 발전은 평가의 특징에 대한 사고와 접근 방식을 넓혔다(Tavares et al., 2019). 즉, 다른 분야와 마찬가지로, 평가 문제를 해결하는 방법은 다양한 철학적 위치에서 질문되고 있다. 반면에, 이처럼 [확대된 견해]는 [평가 전략에 접근하고, 평가 전략을 평가하는 최선의 방법]에 대한 긴장을 조성한다. 
Health professions educators face a growing paradox when structuring assessment. On the one hand, advances in assessment have broadened how we think about and approach features of assessment (Tavares et al., 2019). That is, ways of solving assessment problems are now interrogated from a variety of philosophical positions, such as post-positivist and constructivist lenses (defined below) among others (Govaerts et al., 20072013). On the other hand, these broadening views create tensions in how best to approach and evaluate assessment strategies.

[철학적 입장(패러다임이라고도 함)]은 (역량의 본질, 평가 방법 및 타당성 주장의 구조를 이해하는 방법을 포함하여) 학자들에게 [문제와 해결책을 검사하기 위한 렌즈를 제공하는 일련의 인정된 가정 또는 지적 프레임워크]를 나타낸다(Tavares et al., 2019). 이러한 입장이 평가 컨텍스트에서 혼합될 때 다음과 같은 문제가 발생할 수 있습니다.
Philosophical positions (also referred to as paradigms) represent sets of recognized assumptions or intellectual frameworks that provide scholars with lenses for examining problems and solutions (Kuhn, 1996; Tashakkori & Teddlie, 2010), including how we understand the nature of competence, ways of assessing, and the structuring of validity arguments (Tavares et al., 2019). When these positions intermingle in an assessment context, questions can arise, such as:

  • 동일한 수행에 대한 서로 다른 평가 점수는 [오류]로 보아야 하는가 또는 [의미 있는 풍부성]으로 간주해야 하는가?
  • [서면 코멘트를 평가 데이터로 사용하는 것]이 개인의 "진정한" 능력을 삼각측량할 수 있는 기회를 제공하는가? (즉, 잠재적 특성latent traits 집합으로서의 역량)
  • [서면 코멘트]는 주어진 맥락과 시간에서 개인에 대한 이야기를 공동 구성하는 데 기여하는가(즉, 사회적으로 구성된 역량)?

 

  • Should we treat different rater scores of the same performance as error or as meaningful richness?
  • Does the use of written comments as assessment data provide opportunities for triangulating the “true” capabilities of individuals (i.e., competence as a collection of latent traits)? or
  • Do written comments contribute to co-constructing a narrative about individuals in a given context and time (i.e., competence as socially constructed)?

이러한 질문 및 기타 근본적인 평가 관련 질문에 대한 반응은 적용되는 철학적 입장에 따라 달라질 것이다. 평가의 우수성을 보장하기 위해, 이러한 긴장감의 함축성을 검토해야 하며, 여기에는 방치된 철학적 입장과 관련 가정이 평가 과학 내에서 무언의 긴장을 초래하고 따라서 차선의 구체화와 실천이 어떻게 이루어질 수 있는지를 포함시켜야 한다.

Responses to these and other fundamental assessment-related questions will vary based on the underlying philosophical positions applied. To ensure excellence in assessment, the implications of this tension must be examined, including how unattended philosophical positions—and their associated assumptions—may lead to unspoken tensions within assessment science and thus sub-optimal materializations and practices.

표 1 다른 철학적 입장이 교육자로 하여금 다른 평가 전략을 적용하도록 이끌 수 있는 방법에 대한 래터 훈련을 사용하는 가상의 예
Table 1 A hypothetical example, using rater training, of how different philosophical positions can lead educators to apply different assessment strategies

 

평가에 대한 철학적 입장의 다양성은 적어도 세 가지 관련 문제를 제기한다.

The diversity in philosophical positions informing assessment raises at least three related issues. 

첫째, 평가의 각 핵심 특징(즉, 구성/역량의 특성, 평가 활동, 정당화 전략)은 서로 다른 철학적 위치에 의해 inform될 수 있기에, 동일한 개념에 대한 서로 다른 이해로 귀결될 수 있다. 우리는 같은 언어를 사용할지 모르지만 다른 의미를 의도한다. 예를 들어, [구성이나 역량의 특성]은 [잠재된 특성]들의 집합으로 볼 수 있으면서(Borsboom, 2005), [사회적으로 구성된 것]으로 볼 수도 있다(Kuper 등, 2007), 또는 관찰될 수 있는 범위 내에서만 현실로 볼 수 있다.

First, each core feature in assessment (i.e., nature of constructs/competence, assessment activities, justification strategies) can be informed by different philosophical positions, resulting in different understandings of the same concepts. We may use the same language but intend different meanings. For example, the nature of constructs or competence can be viewed as a collection of latent traits (Borsboom, 2005), as socially constructed (Kuper et al., 2007), or as real only to the extent that it can be observed. 

둘째, 평가 설계자는 철학적 가정을 완전히 고려하지 않은 경우 자신도 모르게 [평가 프로그램의 구현을 저해할 위험]이 있다. 존재론적 및 인식론적 쌍pairing(예: 구성을 인식하는 방법과 평가되는 방법)은 평가 프로그램을 가이드 할 수 있지만, 그러려면 관련된 가정의 논리와 "규칙"을 주의하고 준수해야만 한다. (다수의) 특징과 논리를 아우르는 이러한 일관성을 "호환가능성 원리"로 설명되었다(Tavares et al., 2019).

  • 비호환성의 한 가지 예는, 연구자들이 역량을 사회적으로 구성된 것으로 보는 것에서 시작하지만(이 관점에서 다양한 데이터 출처와 유형을 수집하도록 유도할 수 있음),
  • 모델의 방어성 또는 신뢰성을 입증할 때에는 신뢰성 지표(예: 크론바흐의 알파)를 보고하는 등 field-level norm을 따르는 것이다.

다양한 출처의 데이터를 가지고 오로지 일관성을 추구한다면, 이 경우 "비호환성"이 발생할 가능성이 높아진다. 이러한 모습은 평가의 세 가지 핵심 요소, 즉 [구성, 데이터 수집, 정당화constructs, data collection, and justification]의 근간이 되는 철학적 입장에 존재하는 긴장을 반영한다.

Second, assessment designers may be at risk of unwittingly undermining the implementation of assessment programs when they have not fully considered their philosophical assumptions. Ontological and epistemological pairings (e.g., how we perceive constructs and how they are to be assessed) can guide assessment programs; however, this obligates attention and adherence to the logic and “rules” of related assumptions. This coherence across features and logic has been described elsewhere as a “compatibility principle” (Tavares et al., 2019).

  • An example of a potential incompatibility begins with researchers viewing competence as socially constructed, a view that might lead to collecting diverse data sources and types,
  • but then follow field-level norms by reporting reliability indicators (e.g., Cronbach’s alpha) to demonstrate the model’s defensibility or trustworthiness.

The generation of diverse data sources only to seek their consistency presents the potential for “incompatibility” and reflects tensions in the philsophical positions underpinning three key components of assessment, namely views on constructs, data collection, and justification. 

셋째, 평가 프로그램에 의해 생성된 데이터를 적절히 평가하려면, [최종 사용자는 설계자의 철학적 입장과 가정을 이해해야 하며], 이에 대한 최종 데이터를 비교하고 품질을 평가할 수 있다(Kane, 2013; Markus & Borsboom, 2013). 우리는 이것이 연구자들이 그들의 입장을 명시적으로 진술하고 질적 연구에서 반사성reflexivity에 관여하는 역할과 가치와 유사하다고 생각한다. 그래야만 최종 사용자는 결과를 더 잘 이해하고, 결과를 더 잘 포지셔닝시킬 것이며, 과학적 엄격성과 품질을 평가할 수 있습니다. 
Third, to adequately evaluate the data generated by assessment programs, end users must understand the designer’s philosophical positions and assumptions, against which they can compare the eventual data and appraise its quality (Kane, 2013; Markus & Borsboom, 2013). We consider this as analogous to the role and value of researchers explicitly stating their stance and engaging in reflexivity in qualitative research (Crotty, 1998; Denzin & Lincoln, 2008; Guba & Lincoln, 1994). Doing so helps end users to better understand and position results, and to evaluate scientific rigor and quality. 

잠재적 함의를 감안할 때, 우리는 보건직업 교육(HPE)의 평가 과학자와 설계자가 그들의 실무에서 철학적 입장의 역할에 대해 어떻게 보고했는지 이해하는 것을 목표로 했다. 우리는 특히 사용자가 해당 정보를 어떻게 찾고 사용할 수 있는지를 이해하고 추론하려고 노력했다. 특히, 우리는 "내재적 역할intrinsic role"(예: 커뮤니케이션, 전문성, 리더십)에 대한 평가에 초점을 맞췄다(Sherbino 등, 2011년) 많은 학자들은 [내재적 역할이 [인문사회과학의 철학] 안에 가지고 있는 뿌리]에 대한 동등한 강조 없이 대안적 평가 활동의 필요성만을 강조해왔다. 예를 들어 이러한 역할에 대한 평가를 의료 전문지식medical expertise과 통합할 수 있다고 가정하면, philosophically-informed assessment라는 관점에서 볼 때 잠재적인 논리적 결함이 발생한다. 
Given the potential implications, we aimed to understand how assessment scientists and designers in health professions education (HPE) have reported on the role of philosophical positions in their practice. We specifically sought to understand and infer how knowledge users might locate and use that information. In particular, we focused on the assessment of “intrinsic roles” (e.g., communication, professionalism, leadership) (Sherbino et al., 2011), for which many scholars have emphasized the need for alternative assessment activities without an equal emphasis on the roots intrinsic roles have in the philosophies of humanities and social sciences (Kuper & D’Eon, 2011; Kuper et al., 2017). Assuming one can integrate assessment of these roles alongside medical expertise, for example, produces potential logical flaws when viewed from a philosophically informed assessment perspective. 

 

방법들
Methods

스터디 개요
Study overview

1단계에서는, 본질적 역할(예: 전문직업성)을 (명시적 초점 또는 전반적 역량 평가의 통합 구성요소로) 포함하는 성과 기반 평가 문헌의 최근 대표 표본(포괄적이지는 않지만)을 식별하였다. 3년에 걸쳐 표본을 추출하기로 선택함에 있어, 우리는 "최신" 문헌의 표본을 추출하기 보다는 대표적인 표본을 선택하여 우리의 원칙에 따라 조사하는 것을 목표로 했다. 이 접근법은 폭보다 분석의 깊이를 강조하는 지식 통합에 대한 서술적이고 비판적인 해석론적 견해와 일치한다(Greenhalgh 등, 2018; Grant 등, 2009; Dixon-Woods 등, 2005).
Phase 1 involved identifying a recent and representative (but not comprehensive) sample of performance-based assessment literature that included intrinsic roles (e.g., professionalism) as an explicit focus or as an integrated component of an overall competence assessment. In choosing to sample over a 3-year period, we aimed to select a representative sample and probe it with our principle, rather than to sample the literature such that were “up to date.” This approach aligns with the narrative, critical interpretivist view of knowledge synthesis, which emphasizes depth of analysis over breadth (Greenhalgh et al., 2018; Grant et al., 2009; Dixon-Woods et al., 2005).

2단계는, 정성적 내용 분석을 사용하여 (가능한 경우) 각 논문 저자들의 연구 선택을 뒷받침하는 철학적 입장을 설명하는 발췌를 추출하였다. 성과 기반 평가의 세 가지 주요 기능에 대해 이 작업을 수행했습니다.

  • (1) 구성의 특성 및 역량
  • (2) 평가 활동의 구조 및 전달, 특히 평가자의 역할
  • (3) 정당화 및 검증 방법

Using qualitative content analysis, Phase 2 involved extracting excerpts (where possible) describing the philosophical positions of each paper’s authors that would have underpinned their research choices. We did this for three key features of performance-based assessment:

  • (1) the nature of constructs and competence,
  • (2) structure and delivery of assessment activities, particularly the role of raters, and
  • (3) methods of justification and validation.

저자의 철학적 입장을 직접적으로 선언한 본문의 발췌가 없을 때, 우리는 좀 더 간접적인 신호(예: 참고문헌, 특징들이 어떻게 운용되었는가)를 사용하여 잠재적인 철학적 입장을 추론하려고 시도했다. 마지막으로, 이러한 기능에 대한 호환성 문제를 관찰, 해석 및 설명하는 것을 목표로 했다.

In the absence of excerpts of text that directly declared authors’ philosophical positions, we attempted to infer potential philosophical positions using more indirect signals (e.g., references, how features were operationalized). Finally, we aimed to observe, interpret, and describe any issues of compatibility across those features.

이 정보를 추출하면서, 우리는 지식 사용자와 연구자로서, 우리 자신도 연구 목표를 해결하는 데 필요한 데이터를 도출하기 위해 고군분투한다는 것을 깨달았다. 특히, 우리는 저자들의 철학적인 입장에 대해 상당히 추론에 의존했다. 따라서 다음과 같은 두 가지 분석 및 해석 수준에 따라 결과를 보고합니다.

  • 레벨 1—포함된 간행물에 직접 보고되는 평가의 특징과 관련된 우리의 관찰 사항
  • 레벨 2—내재적 역할에 대한 성과 기반 평가에 대한 보고서에서 제안된 호환성 원칙과 관련된 철학적 입장 상태에 대한 우리의 관찰에 대한 비판적 서술 요약.

In extracting this information, we realized that even as informed knowledge users and researchers, we struggled to elicit the necessary data to address our research aims. Specifically, we relied on a high degree of inference about many of the authors’ philosophical positions. As such, we report our results according to two levels of analysis and interpretation:

  • level 1—our observations related to the features of assessment that are directly reported in the included publications; and
  • level 2—a critical narrative summary of our observations regarding the state of philosophical positions, as they relate to our proposed compatibility principle, in reports on performance-based assessments of intrinsic roles.

연구 접근법
Study approach

검토자("지식 사용자")에 대한 참고 사항
Notes on reviewers (“knowledge users”)

우리 팀은 다양한 철학적 위치의 역할과 기능에 대한 철저한 이해를 가진 교육, 평가, 인문, 사회과학 연구자들을 포함했다. 우리는 다양한 학문적 배경을 가진 구성원들로 구성된 연구팀을 만들었고, 그들 자신의 독립적인 연구 프로그램 내에서 다양한 철학적 위치에 걸쳐 있었다. 평가에 대한 우리의 전문지식은 실무지식 보유에서 해당 분야의 선도적인 연구 프로그램에 이르기까지 다양했다.

Our team included education, assessment, humanities, and social sciences researchers with a thorough understanding of the role and function of various philosophical positions. We created a research team with members from diverse disciplinary backgrounds and that spanned a range of philosophical positions within their own independent research programs. Our expertise in assessment varied from having a working knowledge to leading programs of research in the domain.

1단계—검토를 위한 평가 문서의 대표적인 샘플 설정
Phase 1—establishing a representative sample of assessment articles for review

저널 선정 및 기사 식별
Journal selection and article identification


우리는 HPE의 평가 문헌의 최근 대표 샘플을 다음과 같이 식별함으로써 시작했다.
We began by identifying a recent and representative sample of assessment literature in HPE by:

1. 2017년 저널 인용 보고서의 "교육, 과학 분야"에 열거된 의료/보건 직업 교육 분야의 상위 저널을 식별(2018년 아직 사용할 수 없음).
1.
Identifying top journals in medical/health professions education listed under “Education, Scientific Disciplines” of the Journal Citation Reports for the year of 2017 (2018 was not yet available).

2. 저널 영향 인자의 조합에 기초하여 3개의 저널을 선택하고 관심 주제(즉, HPE의 평가)를 표현한다.
2.
Selecting three journals based on a combination of journal impact factor and representing the topic of interest (i.e., assessment in HPE).

3. 평가문헌의 대표적인 표본으로 2016~2018년 연구논문 선정(학술지의 목차로 결정하고 Web of Science를 사용하여 교차 점검) 그런 다음 이러한 문서는 포함 기준과 분석을 검토하기 위해 EPPI-리뷰어 소프트웨어로 가져오게 된다.
3.
Selecting research articles from 2016–2018 (as determined by the journal’s table of contents and cross-checked using Web of Science) in each journal as a representative sample of assessment literature. These articles were then imported into EPPI-Reviewer software for review of inclusion criteria and analysis (https://eppi.ioe.ac.uk/EPPIReviewer-Web/home).

 

심사: 기사 추상적 검토 및 포함 기준
Screening: article abstract review and inclusion criteria

두 명의 팀원이 각각의 제목과 개요를 독립적으로 검토했다. 불일치를 해결하기 위해 쌍이 충족되었으며, 주 조사자(WT)에 의해 지속적인 불일치가 해결되었습니다. 제목과 추상적인 내용을 포함하려면 다음을 수행해야 합니다.

Two team members independently reviewed each title and abstract. Pairs met to resolve discrepancies, with persistent disagreements resolved by the principal investigator (WT). To be included, the title and abstract needed to:

1.평가에 관한 1차 연구 또는 프로그램 평가에 관한 보고서
1.
Report on primary research or program evaluation on assessment;

2.새로운 경험적 작업(즉, 역량 평가와 관련된 모든 종류의 새로운 데이터를 생성하려는 시도)을 설명한다.
2.
Describe new empirical work (i.e., attempt to generate new data of any kind related to assessment of competence);

3.역량의 구성/정의의 일부 또는 독점적으로 하나 이상의 고유 역할에 대한 평가를 포함합니다. 우리는 검토자를 CanMEDs(Frank et al., 2015) 및 ACGME(Accreditation Council for Graduate Medical Education) 프레임워크(Holmboe et al., 2016)를 사용하는 고유 역할의 예에 초점을 맞췄지만 이러한 프레임워크에 국한하지는 않았다.
3.
Include assessment of one or more intrinsic roles, exclusively or as part of the construct/definition of competence. We oriented reviewers to examples of intrinsic roles using the CanMEDS (Frank et al., 2015) and Accreditation Council for Graduate Medical Education (ACGME) frameworks (Holmboe et al., 2016) but did not limit ourselves to those frameworks.

4.외부 관찰자가 추론 기반 판단을 해야 하는 모든 유형의 시뮬레이션 또는 업무 기반 성과 기반 활동을 사용하여 학습자의 평가를 포함한다.
4.
Include assessment of learners using any type of simulation or work-based performance-based activity that required external observers making inference-based judgments.

 

2단계—데이터 추출 및 분석: 저자의 철학적인 위치에 존재 및 호환성
Phase 2—data extraction and analysis: presence of and compatibility in authors’ philosophical positions

철학적 입장을 민감하게 만드는 것에 대한 참고사항
Notes on sensitizing philosophical positions

데이터 추출을 지원하기 위해, 우리는 평가 맥락에 적용할 두 가지 광범위한 철학적 입장에 대한 상세한 설명을 가진 검토자를 준비했다. 사후 긍정주의/객관주의 및 구성주의/해석주의 (타바레스 외, 2019). 현존하는 문헌에서 학자들은 이 두 가지 패러다임 중 하나를 다른 패러다임으로 대체하거나 둘 모두를 포함시킬 것을 주장해왔다(Govaerts & van der Vleuten, 2013; Pearce, 2020).

  • 우리는 [후기 실증주의/객관주의]를 [측정 및 심리측정학과 밀접하게 align되어서, 완전히 접근할 수는 없고 어느 정도의 오류가 있기는 하지만 잠재하고 발견 가능한 객관적 진실이 있다는 입장]으로 보았다. 이 위치 내에서 평가 활동은 종종 정량화와 오류 발생 원인을 완화시키기 위한 노력(예: 상황 특수성을 최소화하기 위한 샘플링, 평가자 오류를 줄이기 위한 훈련)을 포함한다. 정당화 전략은 일반적으로 통계적입니다(예: 평가자간 신뢰성, 일반화 이론, 상관 관계).
  • 우리는 [구성주의/해석주의를 주어진 맥락에서 역량이 수행의 해석으로만 이해된다는 개념]과 관련이 있다고 여겼다. 즉, 객관적인 진실은 없는 것이다. 구인(예: 역량, 전문직업성)은 주관적이며 주어진 시점에서 다양한 해석에 개방적이다. 의미는 평가자-학습자 상호작용에서 구성되며 특정 시간의 환경 및 사회적 맥락에 의해 영향을 받는다. 정당성에는 질적 연구의 엄격함(예: 삼각 측량, 포화)과 일치하는 전략이 포함된다.

To support data extraction, we prepared reviewers with a detailed description of two broad philosophical positions: post-positivism/objectivism and constructivism/interpretivism, applied to assessment contexts (per Tavares et al., 2019). In the extant literature, scholars have advocated for replacing one of these two paradigms with the other, or the inclusion of both (Govaerts & van der Vleuten, 2013; Pearce, 2020).

  • We considered post-positivism/objectivism as closely aligned with measurement and psychometrics, and the position that there is an objective truth that is latent and discoverable, although not fully accessible and with some degree of error (Borsboom, 2005; Crotty, 1998). Within this position, assessment activities often involve quantification and efforts to mitigate sources of error (e.g., sampling to minimize context specificity, training to reduce rater error). Justification strategies are generally statistical (e.g., inter-rater reliability, generalizability theory, correlations).
  • We considered constructivism/interpretivism in assessment to be associated with the notion that competence is only understood as an interpretation of performance in a given context; there is no objective truth (Borsboom, 2005; Crotty, 1998). That is, constructs (e.g., competence, professionalism) are subjective and open to multiple diverse interpretations in a given point in time. Meaning is constructed in the assessor–learner interaction and influenced by the environment and the social context of a particular time. Justifications often include strategies consistent with rigor in qualitative research (e.g., triangulation, saturation).

이러한 입장에 더하여, 우리는 검토자들이 다른 철학적 입장과 연관될 수 있는 신호에 개방될 수 있도록 허용하고 장려했습니다. 우리는 또한 방법과 관련된 중립성과 광범위한 일반화 문제에 민감했다. 즉, 텍스트 기반 데이터, 광범위한 샘플링 및 양적 또는 질적 방법의 사용이 둘 이상의 철학적인 위치에 적용될 수 있음을 인식했다. 우리는 저자들이 연구를 수행하기 위해 사용하는 연구 방법보다는 기사에서 설명한 평가 기능에 초점을 맞췄다.

In addition to these positions, we allowed and encouraged reviewers to be open to signals that might be associated with other philosophical positions. We were also sensitive to issues of neutrality and broad generalizations related to methods. That is, we recognized that text-based data, broad sampling, and the use of quantitative or qualitative methods, for example, could be applied to more than one philosophical position. We focused on assessment features as described in the articles, rather than on the research methods used by the authors to conduct their studies.

데이터 해석 및 추출
Data interpretation and extraction

2단계에서는 4명의 팀원이 짝을 이루어 각 기사의 전문을 검토했다(WT와 PR; RB와 KH). 우리는 자신의 독립적인 연구 프로그램에서 서로 다른 철학적인 입장에 맞는 팀원들을 의도적으로 일치시켰다. 데이터 추출 및 콘텐츠 분석 프로세스가 동시에 발생하여 다음과 같은 작업이 수반되었습니다.

In phase two, four team members worked in pairs (WT and PR; RB and KH) to review the full text of each article. We purposefully matched team members who align with different philosophical positions in their own independent research programs. The data extraction and content analysis processes occurred simultaneously and involved:

1. 본문 전체를 읽고, 위에 기술한 포함 기준을 적용한다.
1.
Reading the full texts and applying the inclusion criteria described above.

2. 평가의 세 가지 특징 파악한다: 이 세 가지 특징은 평가와의 관련성 및 철학적 입장과 관련된 가능한 가변성 때문에  선택했습니다. 

  • (a) 포함된 구인 및 역량의 정의/개념화, 
  • (b) 평가 활동, 특히 관찰자의 역할, 그리고 
  • (c) 신뢰도 또는 정당성 전략. 

2.Identifying three features of assessment:

  • (a) definition/conceptualization of included constructs and/or competence;
  • (b) assessment activities, specifically the role of the observer, and
  • (c) trustworthiness or justification strategies.

We selected these three features because of their relevance to assessment, and the possible variability related to the philosophical positions informing each.

3. 저자가 이 세 가지 특징 및/또는 기본 입장을 추론하는 데 사용될 수 있는 진술과 관련된 철학적 입장을 직접적으로 나타내는 진술을 추출한다. 우리는 검토자를 가정의 지표indicators of assumptions로 민감화 했다(위에서 설명한 바와 같이). 우리의 접근법은 직접적인 인용문을 사용하려는 시도에서 시작되었지만, 철학적 입장에 대한 보고가 우리의 연구 샘플에서 거의 완전히 빠져있었기 때문에 해석적이 되었다. 따라서 각 구성원은 분석을 위한 평가의 각 특징에 대한 의견(즉, 직접 인용, 해석 및 추론)을 제공하였다.
3.
Extracting statements that either directly indicated the authors philosophical position related to these three features and/or statements that could be used to infer underlying positions. We sensitized reviewers with indicators of assumptions (as described above). Our approach began with an attempt to use direct quotes, but became interpretive because reporting of philosophical positions was almost entirely absent in our sample of studies. Therefore, each member provided comments (i.e., direct quotes, interpretations, and inferences) for each feature of assessment for analysis.

4.각 특징에 대해 작성한 데이터와 메모를 귀납적 정성적 설명을 사용하여 탐색했습니다(Sandelowski, 2000, 2010). 이것은 의도적으로 개별 본문에서 물러나 우리의 연구 문제와 관련된 문헌에 대한 우리의 관찰의 요약을 제공하기 위한 것이었다.
4.
The data and notes made for each feature were then explored using inductive qualitative description (Sandelowski, 2000, 2010). This was to intentionally step back from the individual texts and provide a summary of our observations of the literature related to our study question.

5.우리 연구팀은 자주, 반복적으로 만나서 긴장, 어려움, 관찰 및 데이터 수집 프로세스의 필요한 개선 사항 및 데이터 역할을 문서화하고 해결하고자 했다.

5.Our research team met frequently and iteratively to discuss and document tensions, difficulties, observations and where necessary refinements to our data collection process and struggles which we documented and also served as data.


우리는 연구나 연구 설계를 알리는 위치보다는 평가 특징을 알려주는 철학적 위치에 주의를 집중했다. 그러나 이러한 위치가 중복될 수 있다는 것을 인정했다. 또한 포함된 연구가 항상 우리가 추구하는 방식으로 평가 프로그램을 완전히 설명하지는 않을 것으로 예상했습니다. 우리는 각 연구에서 평가의 세 가지 특징에서 분명한 위치성을 관찰한 다음 연구 내 적합성에 대한 관찰과 해석에 초점을 맞췄다.
We focused our attention on the philosophical positions informing the assessment features of interest, rather than on the positions informing the research or study designs; however, we acknowledged that these could overlap. We also expected that included studies would not always fully describe assessment programs in the ways we sought. We concentrated on observing the positionality evident in the three features of assessments in each study, then on our observations and interpretations of compatibility within the studies.

 

결과.
Results

문헌 식별
Article identification

2016년부터 2018년까지 학술지 Academic Medicine (C) = 14,420, JIF(Journal Impact Factor) = 4.8, 의학교육(C = 9,420, JIF = 4.4), 보건과학의 진보(C = 2,341, JIF 2.57 적용 기준), 두 명의 독립 연구자의 제목과 추상적 심사를 거쳐 총 37개, 14개, 22개 논문(N = 73)이 전체 텍스트 검토를 위해 포함되었다. 전체 텍스트 심사 후, 전체 분석(학술 의학(n = 15), 의학 교육(n = 5), 보건 과학 교육의 진보(n = 12)에 32개의 논문이 포함되었다. 포함된 연구 특성은 표 2에 설명되어 있다.

From 2016 to 2018 in the journals Academic Medicine (Citations (C) = 14,301, Journal Impact Factor (JIF) = 4.8), Medical Education (C = 9,440, JIF = 4.4), and Advances in Health Sciences Education (C = 2,341, JIF 2.57), application of our criteria led to inclusion of 507/1435, 218/751, and 168/233 papers, respectively (N = 893/2419). After title and abstract screening by two independent researchers, a total of 37, 14, and 22 articles (N = 73) were included for full text review. After full text screening, 32 papers were included for full analysis (Academic Medicine (n = 15), Medical Education (n = 5), and Advances in Health Sciences Education (n = 12)). Included study characteristics are described in Table 2.

 

레벨 1—평가 기능과 관련된 관찰 사항
Level 1—observations related to features of assessment

우리는 다음을 이해하고자 했다. 

  • (A) 저자들은 자신의 철학적 입장을 어떻게 보고했는가?
  • (B) 철학적 입장이 평가의 특징(즉, 구성/능력, 평가 활동, 정당성)에 어떻게 inform했는가?
  • (C) 철학적 입장과 관련된 기본적인 가정과 약속이 평가 특징 전반에 걸쳐 양립할 수 있는가?

We aimed to understand

  • (A) how authors reported on their philosophical positions,
  • (B) how features of assessment (i.e., constructs/competence, assessment activities, justification) were informed by these philosophical positions, and
  • (C) whether the underlying assumptions and commitments associated with the authors’ philosophical positions were compatible across assessment features.

 

모호하거나 불분명하거나 보고되지 않은 철학적 위치
Philosophical positions as vague, unclear, or not reported

목표 "A"에 관하여, 우리는 끊임없이 [저자의 철학적인 입장에 대한 데이터를 추출할 수 없다는 것]을 확인했다. 철학적인 위치에 의해 평가 특징이 어떻게 전달되었는지에 대한 저자의 설명은 모호하거나 불분명하거나 보고되지 않았기 때문에 각 특징에 대한 높은 수준의 해석이나 추론이 필요했다. 이러한 해석의 필요성으로 인해 우리는 여러 팀 회의를 소집하여 저자의 잠재적 입장의 위치에 대해 논의하고 논의하게 되었습니다. 특히, 저자의 결정이 둘 이상의 철학적 입장과 연관될 수 있으나, 라벨이 부착되지 않거나 정의되지 않은 경우에 어려웠음을 확인했다. 우리는 이 발견의 일관성이 그 자체로 중요한 발견이라고 판단했고, 우리의 샘플을 넓히는 것이 우리의 연구 질문에 대한 추가적인 통찰력을 제공하지 못할 것이라고 결정했다.

For aim “A,” we found that we could not consistently extract data about authors’ philosophical positions. Authors’ descriptions on how assessment features were informed by philosophical positions were either vague, unclear, or not reported, and thus required a high degree of interpretation or inference for each feature. (e.g., Biagioli et al., 2017; DeMuth et al., 2018; Gingerich et al., 2017; Ginsburg et al., 2017; Hauer et al., 2018; Li et al., 2017; Martin et al., 2018; Mink et al., 2018; Naidoo et al., 2017; Naumann et al., 2016; Weingart et al., 2018)). This need to interpret led us to call multiple team meetings to discuss and debate the positionality of authors’ potential positions. We noted particular difficulty when authors’ decisions could be associated with more than one philosophical position, yet went unlabeled or undefined (e.g., Ginsburg et al., 2017; Hauer et al., 2018; Naidoo et al., 2017; Naumann et al., 2016). We determined that the consistency of this finding was an important finding in itself, and decided that broadening our sample would likely not provide additional insight toward our research question.

언급되지 않은 것을 보여주기 위해 발췌본을 쉽게 추출할 수 없다는 점을 감안할 때, [부재를 입증하는 것]은 어렵지만, 우리는 저자의 철학적 입장이 명시되지 않았고 여러 가지 방법으로 해석될 수 있었던 아래의 세 가지 예를 제공하고자 한다. 이러한 예들을 공유하는 우리의 의도는 이러한 연구의 방법, 결과 또는 전반적인 품질을 비판하기 위한 것이 아니라, 위치성이 얼마나 암묵적이거나 유추적인 결과들이 다양한 해석에 영향을 미칠 수 있는지를 보여주기 위한 것이다. 
While it is difficult to demonstrate such absences, (Paton et al., 2020) given that we cannot easily pull excerpts to show what was not said, we have provided three examples below in which authors’ philosophical positioning were not stated and could have been interpreted in multiple ways. Our intention in sharing these examples is not to criticize the methods, results, or overall quality of these studies, but rather to show how implicit or inferred positionality may leave the implications of findings open to varied interpretations. 

  • 사례 1에서, 저자들은 그들의 철학적인 위치에 대한 명확한 진술 없이 의사소통과 데이터 관리 기술을 평가하기 위해 OSCE를 탐구했다. 예를 들어, 주관적인 전략을 사용하여 의사 소통과 환자와의 관계 기술을 평가하기 위해 직접적인 관찰을 사용한 결과, 처음에는 구성주의자/해석주의자 입장을 취하는 듯 보였다. 그러나 다음 인용구를 비롯하여, (수치 등급 사용, 격리된 항목 강조(예: 간헐적으로 눈 마주침 유지) 및 정량화를 요구하는 것처럼 보이는) 다른 특징들은 좀 더 후기실증주의의 입장과 일치하는 것처럼 추론하게 했다: "환자의 알레르기를 발견하지 못한 것은 명백한 오류이다. 다른 항목은 환자 결과와 관련된 한 객관적으로 측정하기가 더 어렵다. 예를 들어, 간헐적인 눈 접촉의 양을 결정하는 것은 환자와의 친밀감을 형성하는 데 어렵다." 우리 팀은 객관성을 추구하기 위해 내재적 역할의 분해와 정량화가 평가의 현장 수준 표준과 연관되어 있다고 무심코 가정할 수 있는지, 그리고 그것이 작가들이 후기실증주의적 관점에서 작업했다는 것을 의미하는지 궁금했다.
    In Example 1, authors explored an OSCE to assess communication and data management skills, with no explicit statement of their philosophical positioning. For instance, their use of direct observations to assess communication and patient rapport skills using subjective strategies led us to assume at first a constructivist/interpretivist position. However, other features, such as their use of numeric ratings, their emphasis on isolated items (e.g., maintined eye contact intermittently), and the following quote seemingly calling for for quantification, had us inferring something more aligned with a more post-positivist position: “Failing to discover a patient’s allergy is clearly an error. Other items are more difficult to measure objectively insofar as they relate to patient outcomes. For example, determining how much intermittent eye contact is adequate to establish patient rapport is difficult.” Our team was left wondering if we might be inadvertently assuming the breakdown and quantification of intrinsic roles in the pursuit of objectivity was linked to the field-level norm in assessment, and if it meant authors’ had worked from a post-positivist view.

 

  • 예 2에서 저자들은 자신의 입장을 밝히지 않고 다양한 평가 도구의 예측적 가치를 탐구했다. 저자들은 양적 및 질적 데이터를 모두 중시하는 것으로 보이며 환자, 동료 및 감독자의 데이터 소스를 컴파일해야 할 필요성에 대해 논의했습니다. 저자들은 또한 "교육생에 대한 개인적인 경험과 태도가 등급에 영향을 미칠 것 같다"고 인정했지만 (해당하는 경우) 평가자를 교정하거나 훈련시키거나 어떤 형태의 표준화도 확립하는 것을 목표로 하지 않았다. 그러한 결정은 다양하고 주관적인 성과 관점이 평가되어 독자들이 관련 분석 접근법의 제시를 기대하게 하는 구성주의적 입장을 시사할 수 있다. 그러나 저자들은 신뢰도를 사용하여 데이터 소스의 양적 특징(질적 데이터 제거)에 초점을 맞추고 "예측 유효성"을 탐구하기 위해 연관성 및 회귀 분석을 사용하여 다양성을 조사했다. 입장을 명시적으로 밝히지 않고, 우리 팀은 저자들이 다른 방식으로 가치 있는 다양하고 주관적인 관점을 고려하는지 또는 미래 예측의 정확성이나 신뢰성을 위해 그러한 관점을 완전히 붕괴시키는 것을 지지하는지 확신할 수 없었다.
    In Example 2, authors explored the predictive value of a variety of assessment tools without stating their position. The authors appeared to value both quantitative and qualitative data and discussed the need to compile the data sources from patients, colleagues, and supervisors. The authors also recognized “personal experiences and attitudes toward trainees will likely influence ratings,” yet did not aim to calibrate or train assessors (where applicable), nor to establish any form of standardization. Such decisions might suggest a constructivist position wherein diverse, subjective viewpoints of performance are valued leading readers to expect presentation of related analytical approaches. However, the authors used reliability to indicate quality of assessment instruments, focused on quantitative features of the data sources (eliminating qualitative data), and examined the diversity using measures of associations and regressions to explore “predictive validity.” Without stating a position explicitly, our team was unsure if the authors’ considered the diverse, subjective viewpoints valuable in other ways, or if they advocated fully for collapsing such viewpoints for the purposes of (presumably) accuracy or reliability of future predictions.

 

  • 사례 3에서 저자는 평가 결과를 개선하기 위해 서술 데이터를 사용하여 탐구했으며, 또한 그들의 입장을 진술하지 않았다. 저자들은 "질적 및 주관적 데이터"와 평가에서 "지평을 확장"하여 정성적 데이터를 포함하는 수치 등급을 넘어서는 가치가 있다고 주장했다. 저자들은 또한 평가에서 순전히 심리측정적 접근법에서 벗어나는 것에 대한 문헌을 인용한다. 저자들은 전공의 순위의 신뢰성과 상관관계를 포함한 서술적 논평의 가치를 분석하기 위해 통계적 접근법을 사용했는데, 이는 구성주의 오리엔테이션과 잘 정렬되지 않은 것으로 해석될 수 있다. 이 정량화 수준은 후기 실증주의적 입장을 더 많이 반영할 수 있다. 그러므로, 어떤 독자들은 질적 자료의 검토에 대한 후기실증주의적 접근법을 인식하는 반면, 다른 독자들은 그렇지 않을 수 있으며, 대신에 통계적 신뢰성이 구성주의자들이 이의를 제기할 수 있는 입장인 서술적 논평의 가치를 평가하기 위한 핵심 지표라고 해석할 수 있다.
    In Example 3, author’s explored using narrative data to improve assessment outcomes, and also did not state their positions. The authors did argue that there is value in “qualitative and subjective data” and to “expand our horizons” in assessment to go beyond numeric ratings to include qualitative data. The authors also reference an article about moving away from purely psychometric approaches in assessment. The authors then used statistical approaches to analyze the value of narrative comments including reliability of resident rankings and correlations, which may be interpretted as poorly aligned with constructivist orientatons. This level of quantification may reflect more of a post-positivist position. Therefore, some readers may recognize the post-positivist approach to examine qualitative data, whereas others may not, and may instead interpret that statistical reliability is a key metric for assessing the value of narrative comments, a stance that constructivists may contest.

우리는 이러한 예들이 현장 수준의 보고 규범을 고수하는 연구 팀을 대표한다고 제안한다(즉, 철학적 입장을 명확하게 진술하지 않음). 이러한 모습은 이 분야에서 방법론적 접근법이 넓어지고, 다른 접근법을 지지하는 철학적인 논쟁이 덜 눈에 띄거나 사용될 수 있는 시대에 생겨났다고 볼 수 있다. 우리는 다음에 대한 대표적인 모습을 보여주고자 했다.

(a) 철학적 입장이 있을 수 있었지만 보고되지 않은 경우
(b) 의도하지 않은 해석에 대한 관련 잠재력
(c) 평가 기능 간의 양립성에 대한 공정하고 불공정한 비판의 가능성.

We suggest that these examples represent research teams adhering to field-level norms of reporting (i.e., no expecctation to clearly state philosophical positions), in a time where methodological approaches have broadened, and where philosophical arguments in support of different approaches may be less visble or used. We intended to represent

  • (a) opportunities where philosophical positions could have been, but were not reported,
  • (b) the associated potential for unintended interpretations, and
  • (c) the potential for both fair and unfair criticisms about compatibility between features of assessment.

 

평가 기능 제정 방법의 차이: 가변적 위치 제시
Differences in the way assessment features are enacted: suggesting variable positionality

목표 "B"를 위해, 우리는 [평가 특징이 집행enact되는 방법]의 다양성을 관찰했다. 그러나 철학적인 위치에 대한 직접 또는 가시적인 언급이 없어서 저자의 입장을 추론하기 위해 본문의 간접 언어와 다른 신호에 의존하게 되었다. 따라서 저자들이 [평가 기능을 집행한 방법을 어떻게 보고하였는지]에 초점을 맞추게 되었으며, 이를 통해 우리는 평가 기능의 위치positionality를 추정했다. 예를 들어, 우리는 일부 저자들이 구인의 조작화를 후기 실증주의적 위치(예: 잠재적 특성 또는 속성)와 연관시켰다고 해석했다. 

For aim “B,” we observed variability in how assessment features were enacted; however, the absence of direct or visible references to philosophical positions left us relying on indirect language and other signals in the text to infer authors’ positions. This consequently led us to focus on how authors reported enacting assessment features, from which we presumed their positionality. For example, we interpreted some authors to associate their operationalization of constructs with post-positivist positions (e.g., as latent traits or attributes) (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Cameron et al., 2017; DeMuth et al., 2018; Hicks et al., 2016; Lee et al., 2016; Li et al., 20172018; Onishi et al., 2018; Park et al., 20162017; Ross et al., 2017).

  • 구성주의/해석주의자들의 프레이밍을 활용하는 저자들의 수는 더 적었다.
  • 우리는 [관찰자를 객관적이지만 실수할 수 있고 상호 교환 가능하며 훈련을 통해 완화될 수 있는 오류에 기여하는 사람]으로 간주한 사례에 주목했다. 
  • 이와는 대조적으로, 어떤 연구자들은 관찰자의 주관성을 중시하는 것으로 보였고, 관찰자 사이의 변화를 의미 있는 것으로 위치시켰다.
  • 타당화validation에 대한 일반적인 접근법에는 통계적 접근법(예: 일반성, 신뢰성, 평가자 효과에 대한 통제)의 활용이 포함되었다.
  • 소수의 저자가 정성적 형태의 정당성(예: 신뢰성, 회원 확인, 이전 가능성)을 사용했다

 

  • Fewer authors appeared to leverage constructivist/interpretivist framings (e.g., Christensen et al., 2018; Pool et al., 2018).
  • We noted instances in which observers were considered objective, but fallible, interchangeable and as contributing error that could be mitigated through training (e.g., Biagioli et al., 2017; Cameron et al., 2017; Dory et al., 2018; Naumann et al., 2016; Park et al., , 20162017; Roberts et al., 2017ab; Turner et al., 2017; Weingart et al., 2018).
  • By contrast, others appeared to value observer subjectivity, and positioned the variation between observers as meaningful (e.g., Chahine et al., 2016; Christensen et al., 2018; Pool et al., 2018).
  • A common approach to validation included leveraging statistical approaches (e.g., generalizability, reliability, controlling for rater effects) (e.g., Cameron et al., 2017; Chahine et al., 2016; DeMuth et al., 2018; Dory et al., 2018; Li et al., 2018; Mink et al., 2018; Onishi et al., 2018; Park et al., , 20162017; Roberts et al., 2017ab).
  • Fewer authors used qualitative forms of justification (e.g., credibility, member-checking, transferability) (e.g., Christensen et al., 2018; Pool et al., 2018).

일부 지표를 활용했지만 평가 방법이 둘 이상의 위치와 연관될 수 있기 때문에 기본적인 위치만 추론할 수 있었다. 따라서, 우리는 목표 "C"에 대한 의도된 분석을 완료할 수 없었다. 
While we leveraged some indicators, we could only infer underlying positions, in part because assessment methods can be associated with more than one position. As such, we could not complete our intended analysis for aim “C.” 

 

레벨 2-호환성 평가 시 해석 및 결과 요약
Level 2—summarizing our interpretations and findings when attempting to appraise compatibility

분석 레벨 1 동안 직면했던 도전은 상당히 놀랍고 놀라웠기 때문에 많은 팀 토론과 토론을 촉발시켰다. 우리는 작가들의 철학적 입장을 해석하기 위해 상당한 시간을 보냈다. 토의하고, 토론하고, 경쟁하고, 우리 자신과 서로의 해석에 의문을 품었다. 두 논문(예: 사례)의 철학적 위치를 다르게 해석하는 연구팀의 다른 구성원의 대표적인 예가 보충 파일로 포함되어 있다.

The challenges faced during Level 1 of analysis were considerable and surprising, such that they prompted a great deal of team discussion and debate. We spent substantial time attempting to interpret authors’ philosophical positions, then discussing, debating, contesting, and questioning our own and each other’s interpretations. Representative examples of different members of the research team interpreting the philosophical positioning of two papers (i.e., cases) differently are included as a supplementary file.

시간이 지남에 따라, 우리는 그러한 토론들이 그들만의 독특한 결과를 제공한다고 판단했다. 다음은 원본 연구에서 규칙적이고 명시적인 보고가 없는 상황에서 철학적 입장을 해석하는 우리의 경험을 서술적으로 종합한 것이다.
With time, we judged that such discussions offered their own unique findings. The following represents a narrative synthesis of our experiences interpreting philosophical positions in the absence of regular, explicit reporting in the original studies:

1.작가의 철학적 입장과 가정은 함축적이다. 

저자가 철학적인 입장을 명확하고 명시적으로 보고하지 않을 때, 지식 사용자는 다양한 평가 기능과 관련된 의미를 추론하거나 다양하게 해석해야 한다. 예를 들어, 일부 저자들은 내적 역할의 구성을 단독으로 정의하거나 다른 차원들과 결합하지 않았다. 저자들은 관찰자의 역할에 대해 논의했지만, 때때로 저자들의 철학적 위치에 대한 우리의 추론에 자신감을 남길 만큼 충분한 세부 사항이 없었다. 또한, 정당화 과정에서, 저자들은 평가의 다른 특징과 짝을 이루는 것에 대해 어느 정도 다른 철학적 입장(예: 통계적 주장, 엄격함의 질적 개념과 일치하는 접근법)을 제시한 방법이나 접근법을 사용했다. 하나의 방법들이 어떤 철학적 입장과 연관될 수 있는 여러 가지 방법이 있음을 고려할 때, 구별과 해석이 항상 명확한 것은 아니다.

1.
Author’s philosophical positions and assumptions as implicit When authors did not report their philosophical positions clearly and explicitly, knowledge users are left to infer or variably interpret meaning associated with various assessment features. For instance, some authors did not define the construct of intrinsic roles alone or in combination with other dimensions (e.g., Chahine et al., 2016; DeMuth et al., 2018; Dory et al., 2018; Ginsburg et al., 2017; Li et al., 2017; Naidoo et al., 2017)). Authors discussed the role of the observer, but at times without enough detail to leave us confident in our inferences about the authors’ philosophical positioning (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Cameron et al., 2017; DeMuth et al., 2018; Martin et al., 2018; Naidoo et al., 2017; O’Brien et al., 2016; Weingart et al., 2018)). Further, in generating justifications authors used methods or approaches that suggested, to some extent, different philosophical positions (e.g., statistical arguments, approaches consistent with qualitative notions of rigor) for which pairings with other features of assessment could be variably interpreted. Given how methods could be associated with more than one philosophical position, distinctions and interpretations are not always clear.

2. 이론을 실천에 적용하는 것은 철학적이기보다는 방법론적인 것으로 보인다. 

이러한 연구들을 면밀히 검토한 우리의 경험은, 이론에서부터 실천으로 옮겨가는 것이 [다양한 철학적 입장과 관련된 가정과 약속]에 의해 명확히 인도되기 보다는 [주로 방법론적이었다는 것]을 시사했다. 위에서 언급한 바와 같이, 우리는 방법론적 선택의 변동성을 관찰했다. 많은 예에서, 저자들은 그들의 연구에 심리측정적 원리, 측정 개념, 그리고 통계적 규약을 사용했다. 이와는 대조적으로, 우리는 질적 패러다임과 관련된 방법들에 대해서도 언급했다. 그러나 [평가 문제를 어떻게 조사해야하는지] 또는 [철학적 위치에 의해 해결책이 어떻게 형성되는지]에 관련된 디테일은 훨씬 드물었다. 그리고, 대부분의 연구는 다른 철학적 변화에 찬성하는 개념적 주장이 완전히 받아들여지지 않았다는 것을 암시하면서 심리측정, 측정, 그리고 통계 전략을 고수하는 것으로 보였다.

2.Theory to practice shifts appear to be more methodological than philosophical Our experience closely reviewing these studies suggested that theory to practice shifts has been mainly methodological, rather than explicitly guided by assumptions and commitments associated with various philosophical position. As noted above, we observed variability in methodological choices. In many instances, authors used psychometric principles, measurement concepts, and statistical conventions in their work (e.g., Cameron et al., 2017; DeMuth et al., 2018; Dore et al., 2017; Hauer et al., 2018; Li et al., 2017, 2018; Naidoo et al., 2017; Park et al., 2016, 2017). By contrast, we also noted methods associated with qualitative paradigms (e.g., Pool et al., 2018), though comparatively fewer. However, how assessment problems are interrogated or details related to how solutions are shaped by philosophical positions was much less common. And, the majority of studies appeared to adhere to psychometric, measurement, and statistical strategies, suggesting that conceptual arguments in favor of different philosophical shifts have not been fully taken up.

3.철학적 경계가 불분명해 보인다 

우리는 일부 연구는 후기 실증주의적이었고, 일부 연구는 구성주의적이라고 볼 수 있었지만, 완전히 둘 다로 아니다라고 볼 수는 없다는 것을 발견했다. 분석에서 철학적인 입장으로서 후기실증주의/객관주의와 구성주의/해석주의를 민감하게 만드는 우리의 선택은 잠재적으로 잘못된 이분법을 만들었을 수 있다. 그러나, 우리는 비록 후기실증주의가 더 널리 나타나기는 했지만, 이러한 양극화가 어느 한 쪽을 선택하는 것처럼 보이는 작가들에게서 반영된다는 것을 발견했다. 다른 철학적 입장들 (예를 들어, 현실주의, 실용주의, 철학적 다원성)은 작가의 개념적 주장과 관행을 뒷받침할 수 있다. 이러한 다양한 입장에 대한 명시적인 주의, 논의 및 보고 없이는 경계가 불분명하다.

3.Philosophical boundaries seem to be unclear We found that some articles could be viewed as more constructivist than post-positivist (or vice versa), but also not fully as either (e.g., Pool et al., 2018). Our choice of sensitizing post-positivism/objectivism and constructivism/interpretivism as philosophical positions in our analysis potentially may have created a false dichotomy. However, we found that this polarization was mirrored in authors appearing to choose one or the other, although post-positivism appeared more prevalent. Other philosophical positions (e.g., realism, pragmatism, philosophical plurality) may underlie author’s conceptual arguments and practices. Without explicit attention to, discussion and reporting of these various positions, boundaries are unclear.

4. 내재적 역할intrinsic role이 보다 광범위한expansive 평가 활동에 내재됨에 따라, 철학적 영향이 더욱 불분명해졌다.

많은 저자들은 평가에서 내재적 역할을 의료 전문가 차원 곁으로 embedding하여, 분산시키는decentralize 경향이 있었다. 우리는 다른 역할과의 혼합을 통해 증거가 생성되었을 때 내재적 역할에 대한 주장을 할 수 없다고 판단했다. 저자가 내재적 역할을 내장하지emded 않고, 대신 중심적 구인central construct으로 만든 연구는 저자의 철학적 입장이 선택된 구인(예: 전문직업성)를 평가하는 방법에 대한 그들의 결정에 어떻게 영향을 미칠 수 있는지에 대한 보다 직접적인 평가를 가능하게 했다. 그러나 여기서도 어려움은 여전했다.

4.Intrinsic roles have been embedded in more expansive assessment activities, making philosophical influences unclear Many authors tended to decentralize intrinsic roles in assessment, embedding them alongside medical expert dimensions (e.g., Cameron et al., 2017; Chahine et al., 2016; DeMuth et al., 2018; Gingerich et al., 2017; Ginsburg et al., 2017; Hicks et al., 2016; Li et al., 2017; Naidoo et al., 2017; Naumann et al., 2016; Onishi et al., 2018; Park et al., 2016, 2017; Ross et al., 2017; Tavares et al., 2018; Weingart et al., 2018; Wood et al., 2017). We determined that we could not make claims about intrinsic roles when evidence had been generated through a blending with other roles. Studies in which authors did not embed intrinsic roles, and instead made them the central construct (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Dory et al., 2018; Lee et al., 2016; Martin et al., 2018; Roberts et al., 2017a, b; Roberts et al., 2017a, b), permitted a more direct appraisal of how authors’ philosophical positions may have influenced their decisions about how to assess the chosen construct (e.g., professionalism). However, even here, challenges remained.

5.암묵적, 부재 및 불분명한 철학적 입장의 현재 상태는 양립성 평가를 불확실하게 만들었다. 저자들이 평가의 각 특징에 접근하는 방법에서 우리가 관찰한 변동성은 평가 과학의 최근 발전을 강조하였다. 우리는 전체적으로, HPE의 평가 과학 분야의 경우, 이러한 연구들은 우리가 평가를 더 이상 사이코메트리, 실증주의자 또는 사후 포지티비스트적 위치에 의해서만 알고 있는 활동으로 가정할 수 없다는 것을 시사한다. 이는 특히 기초적인 가정과 약속이 검토하기 어렵거나 방법이 중립성을 유지할 때 평가 특징 전반에 걸친 존재론적-원론적 쌍에 관한 문제적이거나 불확실한 주장에 대한 기회를 제공했다. 평가 문헌의 지배적인 사이코메트리 후 포지티비스트 본문을 발견했지만, 우리는 다른 평가 특징을 알려주는 위치에서 고유한 쌍에 대한 몇 가지 잠재적 표현을 주목했다(예: Chahine 등, 2016; 풀 등, 2018). 궁극적으로, 품질, 방어성 및 호환성에 대한 우리의 해석은 누가 해석하는지는 물론 해석되는 것에 달려있기 때문에 우리는 그러한 쌍에 대해 상세히 언급할 수 없다.
5.
The present state of implicit, absent, and unclear philosophical positions made compatibility appraisals uncertain The variability we observed in how authors approached each feature of assessment highlighted the recent advances in assessment science. We note that collectively, for the field of assessment science in HPE, these studies suggest that we can no longer assume assessment as an activity informed only by psychometric, positivist, or post-positivist positions. This provided an opportunity for problematic or uncertain claims regarding ontological–epistemological pairings across assessment features, particularly when underlying assumptions and commitments were difficult to examine or methods held a degree of neutrality. While we found a predominant psychometric, post-positivist body of assessment literature, we did note some potential representations of unique pairings in the positions informing different assessment features (e.g., Chahine et al., 2016; Pool et al., 2018). Ultimately, we cannot comment in detail on such pairings because our interpretations about quality, defensibility, and compatibility became variable and reliant on both who was interpreting, as well as what was being interpreted.

고찰
Discussion

의료 전문가 및 교육생의 고유 역할에 대한 성과 기반 평가를 설계하고 보고할 때 철학적인 입장의 역할과 사용에 대해 알아봤습니다. 우리는 각 연구에 포함된 다양한 평가 기능에 걸쳐 저자의 철학적 입장과 관련된 기본적인 가정이 양립할 수 있는지 여부를 검토하는 것을 목표로 했다. 우리는 세 가지 주요 발견을 보고한다.

  • 첫째, 저자들은 평가의 다양한 특징과 관련된 그들의 명확한 철학적 입장을 거의 보고하지 않았는데, 이는 우리 팀이 저자들의 근본적인 가정과 관련하여 추론하거나 의미를 추정해야 한다는 것을 의미한다.
  • 둘째로, 저자들은 다양한 방법으로 평가의 특징에 접근했으며, 우리가 추론한 많은 것들은 다른 철학적 입장에 의해 알려지거나 연관될 수 있었다.
  • 셋째로, 우리는 저자의 철학적 가정 준수 또는 위반을 판단하는 데 불확실하게 남겨졌기 때문에 주요 평가 특징 간의 호환성을 판단할 수 없었다.

We explored the role and use of philosophical positions when designing and reporting on performance-based assessments of healthcare professionals’ and trainees’ intrinsic roles. We aimed to examine whether authors’ underlying assumptions associated with their philosophical positions were compatible across the various assessment features included in each study. We report three primary findings.

  • First, authors rarely reported their explicit philosophical positions related to the various features of assessment, meaning our team had to infer or assume meaning regarding authors’ underlying assumptions.
  • Second, authors approached features of assessment in variable ways, many of which we inferred could be informed by or associated with different philosophical positions.
  • Third, we were left uncertain in judging authors’ compliance with or violation of philosophical assumptions and thus could not judge compatibility across key assessment features.

평가의 선택의 폭을 넓히는 맥락에서 연구자와 평가 설계자가 계속 그들의 근본적인 철학적 입장을 묵시적으로 그리고 밝혀내는 경우, 그들은 그들의 의도, 의미, 일관성 및 방어 가능성에 대한 가변적 해석을 할 위험이 있다. 그러한 변동성은 평가 노력의 품질(예: 주어진 맥락에 대한 의미나 관심 구조에 대한 조정 방법을 명확히 하지 않고 방법에 의존하는 것)과 사용자가 보고된 결과를 어떻게 받아들이고 지원하고 구축하는지의 품질을 위협할 수 있다. 다음으로, 우리는 평가 보고, 평가 작업의 지침, 일관성 주장에 대한 함축적 의미 및 철학적 입장의 역할과 관련된 토론에서 철학적 입장의 부재를 고려한다. 우리는 어떻게 평가 작업이 철학적 입장을 명확히 하기 위해 다듬어질 수 있는지에 대한 예를 제공하고 평가 커뮤니티가 고려할 권고사항으로 끝을 맺는다.
In the context of broadening choices in assessment, if researchers and assessment designers continue to leave their underlying philosophical positions implicit and unearthed, they risk variable interpretations about their intentions, meaning, coherence, and defensibility. Such variability has the potential to threaten the quality of assessment efforts (e.g., relying on methods without being clear about their meaning for a given context or how it aligns with constructs of interest), as well as the quality of how knowledge users take up, support, and build upon reported findings. Next, we consider the absence of philosophical positions in assessment reporting, in guiding assessment work, on implications for coherence claims and on debates related to the role of philosophical positions. We provide an example of how assessment work can be refined to make philosophical positions explicit, and end with recommendations for the assessment community to consider.

말하지 않음—평가에서 철학적인 입장의 부재
The unsaid—absence of philosophical positions in assessment

"유효한 평가"라고 여겨지는 것에 대한 문제를 조사하는 것은 구조와 역량의 본질에 대한 철학적 질문으로 시작한다. 그럼에도 불구하고, 평가에 대해 보고하는 저자들은 관련 철학적 입장을 설명하지 않고 주로 평가 방법(예: 숫자 사용, 내러티브 사용)에 초점을 맞추고 있다는 것을 발견했다. 우리는 방법론적 변화를 주장하기 위해 철학적인 입장을 활용하는 저자들을 관찰했지만, (Chahine 등, 2016) 다른 것(즉, 철학적으로 정보에 입각한 가정) 없이 하나의 방법(즉, 방법)을 차지하는 것은 문제를 지나치게 단순화시킬 수 있다. 예를 들어, 저자들은 "심리학 이후의 시대"(Hodges, 2013)를 옹호하거나 그것과 관련된 과도한 수정(Pearce, 2020; Schoenherr & Hamstra, 2016)을 경고하기 보다는 먼저 그들의 철학적 입장이 구성, 역량 및 타당성에 대한 가정을 어떻게 알리는지에 초점을 맞출 수 있다. 그렇게 하면 저자가 평가 특징 전반에 걸쳐 존재론적-원론적 가정을 조정하고 지식 사용자에게 공유 이해에 필요한 기초를 제공할 가능성이 높다. 이러한 철학적 뿌리는 저자들이 한 가지 방법론적 방향이나 다른 방향을 옹호할 때 제기하는 주장 아래에 존재한다고 믿는 것이다(Govaerts et al., 2007; Ten Kate & Regehr, 2019).
Inspecting the issue of what is considered “valid assessment” begins with the philosophical question of the nature of constructs and competence (Mislevy, 2018). And yet, we found that authors reporting on assessments have focused largely on assessment methods (e.g., using numbers, using narratives), without explicating any related philosophical positions. While we did observe authors leveraging philosophical positions to argue for methodological shifts, (Chahine et al., 2016) taking up one (i.e., methods) without the other (i.e., underlying philosophically informed assumptions) may oversimplify the issue. For instance, rather than advocating for a “post-psychometric era” (Hodges, 2013) or cautioning over-corrections associated with it (Pearce, 2020; Schoenherr & Hamstra, 2016), authors might focus first on how their philosophical positions inform their assumptions about constructs, competence, and validity. Doing so will likely ensure authors align the ontological–epistemological assumptions across assessment features and provide knowledge users with the foundations necessary for a shared understanding. It is these philosophical roots that we believe exist beneath the arguments authors make when advocating for one methodological direction or another (Govaerts et al., 2007; Ten Cate & Regehr, 2019).

안내되지 않음—철학적 정보에 입각한 평가 프레임워크의 부재
The unguided—absence of philosophically informed assessment frameworks

평가 결정을 안내하는 많은 출판물들은 아직 철학적 입장의 역할을 강조하지 않는다. 공정하게 말하면, 저자(및 저널)는 이러한 부재를 암시적 가치 진술 또는 표준 관행으로 해석할 수 있다. 예를 들어 2011년 "좋은 평가를 위한 기준"은 존재론 또는 인식론에 대한 명시적 언급 없이 7가지 기준(예: 타당성, 재현성, 동등성, 타당성, 교육 효과, 촉매 효과 및 수용성)을 요약했다(Norcini 등, 2011). 이러한 누락은 기준을 시스템 프레임워크로 대체했을 때 계속되었다(Norcini 등, 2018). 또한 철학적인 입장은 HPE(유드코우스키 외, 2019), 유효성 가이드(쿡 외, 2015, 2016), 평가에서 앞을 내다볼 때 우선 순위로서 또는 역량 위원회에 대한 최근 연구(키니어 외, 2018)에서 언급되지 않는다. 이러한 관찰은 어떤 사람들에게는 철학적인 입장에 대한 관심이 필요하지 않을 수도 있음을 암시한다. 이와는 대조적으로 타당성 이론가들은 이 이슈에 주의를 기울였고(Borsboom & Markus, 2013; Borsboom 등, 2003; Kane, 2013) 시간 경과에 따라 프로그램적 평가가 어떻게 진화해왔는지를 포함한 평가의 일부 진보는 철학적인 가정에 대한 주의의 영향을 받았다(Pearce & Tavares, 2021).
Many publications that guide assessment decisions do not yet emphasize the role of philosophical positions. To be fair, authors (and journals) may interpret this absence as an implicit value statement or standard practice. For example, the 2011 “criteria for good assessment” outlined seven criteria (i.e., validity, reproducibility, equivalence, feasibility, educational effect, catalytic effect, and acceptability), without explicit mention of ontology or epistemology (Norcini et al., 2011). This omission continued when the criteria were replaced with a systems framework (Norcini et al., 2018). Further, philosophical positions do not receive mention in leading textbooks on assessment in HPE (Yudkowsky et al., 2019), validity guides (Cook et al., 2015, 2016), as a priority when looking ahead in assessment (Norcini, 2019), or in recent research on competence committees (Kinnear et al., 2018). These observations suggest that for some, attention to philosophical positions may not be necessary. By contrast, validity theorists have given this issue their attention (Borsboom & Markus, 2013; Borsboom et al., 2003; Kane, 2013) and some advances in assessment, including how programmatic assessment has evolved over time, have been influenced by attention to philosophical assumptions (Pearce & Tavares, 2021).

호환성 원칙
The compatibility principle

평가에서 철학적 위치에 대해 논하는 것은 기존 관행과 새로운 관행에 대한 평가 커뮤니티의 공통된 이해를 뒷받침하는 기초 논리를 제공한다(Tavares et al., 2019). 평가 프로그램은 모범 사례를 구성하는 사항에 대한 커뮤니티 간의 합의를 나타냅니다. 우리는 저자가 자신의 평가 결정이 철학적 위치에 의해 어떻게 형성되는지를 입증하지 못하면 저자와 독자가 똑같이 중요한 학습 기회를 놓치게 된다고 주장한다. 저자의 위치와 가정을 해석하고 추론해야 하는 우리 팀의 경험은 호환성 원칙에 대한 우리의 통찰력을 제한했다. 저자의 입장을 추론할 수 있는지 또는 추론해야 하는지에 대한 우리의 토론은 우리의 발견에 기초가 되었다. 양립원칙을 검토할 수 없음에도 불구하고, 우리는 이러한 철학적 입장과 평가특성을 통한 제정이 평가계획의 적절성과 그 의미를 결정하는 데 도움이 될 것이라는 것을 계속해서 확신하고 있습니다.

Talking about philosophical positions in assessment provides a foundational logic to support a shared understanding in the assessment community regarding existing and newer practices (Tavares et al., 2019). Assessment programs represent agreements among our community on what constitutes best practices. We argue that a key learning opportunity for authors and readers alike is missed if authors fail to demonstrate how their assessment decisions are shaped by their philosophical positions. Our team’s experience with needing to interpret and infer authors positionality and assumptions limited our insights on the compatibility principle. Our debates about whether we could or should infer authors’ positions and what they mean for assessment and assessment quality became foundational to our findings. Despite not being able to examine the compatibility principle, we continue to posit that these underlying philosophical positions and their enactment through assessment features will help to determine the appropriateness of an assessment plan and their meaning.

철학적 입장의 가치에 대한 토론
Debating the value of philosophical positions


우리는 평가 과학과 실천의 철학적 기초에 주의를 기울일 필요가 없을지도 모른다는 비판의 주장을 예상한다. 이에 대응하여, 우리는 이러한 철학을 식별하고 특징짓는 것이 적어도 두 가지 광범위한 이점을 제공한다고 주장할 것이다. 첫째, 평가에서 철학적 위치에 대해 명확하게 하는 것은 암묵적 가정을 식별하고 도전하는 데 도움이 될 수 있다. 현대적 타당성은 구조와 그 평가 사이의 관계와 공동체에 설득력이 있는 둘 사이의 관계에 관한 것이다. 공동체가 어떤 철학적 입장을 취하고, 가치를 매기고, 논의하는지가 비판적이 된다. 일반적인 평가 언어는 개념이 다르거나 구별할 수 없는 의미를 가질 때 의미를 빠르게 잃는다. 둘째, 철학적 입장을 명확히 하는 것은 "평가 맥락에서 철학적 입장과 그 양립가능성의 역할과 관련성과 관련된 핵심 원칙들을 질문, 반박, 세분화, 확장 및/또는 결정할 수 있는 기회를 제공할 것이다"(Tavares et al., 2019).
We anticipate the criticism argument that attending to the philosophical underpinnings of assessment science and practice may not be necessary. In response, we would argue that identifying and characterizing these philosophies offers at least two broad advantages. First, being clear about philosophical positions in assessment may help identify and challenge implicit assumptions. Modern validity is about the relationship between a construct and its assessment and the relationship between the two being persuasive to the community. Which philosophical positions that community holds, values, and discusses becomes critical. A common assessment language loses meaning quickly when the concepts hold different or indistinguishable meanings. Second, being clear about philosophical positions would provide an opportunity to “question, refute, refine, extend, and/or determine further a core set of principles related to the role and relevance of philosophical positions and their compatibility in an assessment context” (Tavares et al., 2019).

분명한 것은, 우리의 연구 결과는 평가 커뮤니티가 평가 문제와 해결책을 조사하는 방법을 계속 넓히고 있기 때문에 철학적 입장과 관련 가정이 더 가시화되어야 한다는 것이다. 평가는 다양한 방법으로 통보되고 개념화되며 제정될 수 있습니다. 명시적으로, 개념적으로 그리고 실질적으로 평가 대상(즉, 구성), 방법(즉, 평가 방법), 이유(즉, 위치 및 가정)를 연결하지 않고, 우리의 경험은 평가가 다양하게 해석되고 잠재적으로 훼손될 수 있다는 것이다. 예를 들어, 지식 생산의 관점에서, 구조의 특성을 사회적 구성물로 위치시키는 것은 혼란스러울 수 있지만, 객관성을 촉진하고 다른 유효성 증거 대신 신뢰성과 일반화에 의존하기 위한 시도로 관찰의 엄격한 척도를 적용하는 것은 혼란스러울 수 있다. 지식 사용 관점에서 평가 연구가 사용자가 실증주의적 입장을 견지한 경우 오류 완화 전략(예: 평가자 훈련)을 포함하지 않으면 치명적으로 결함이 있다고 결론 내릴 수 있다. 이러한 문제에 주의를 기울이지 않는다면, 평가 자체의 설명을 명시하지 않고도 타당성에 대한 합리적인 평결을 내릴 수 있다는 가정이 된다.
To be clear, our findings simply suggest that philosophical positions and associated assumptions be made more visible as the assessment community continues to broaden ways of interrogating assessment problems and solutions. Assessment, can be informed by, conceptualized, and enacted in different ways. Without explicitly, conceptually and practically connecting what is being assessed (i.e., constructs), with how (i.e., assessment methods), and why (i.e., positions and assumptions), our experience is that assessment becomes variably interpreted and potentially undermined. For example, from a knowledge production perspective, it may be confusing to position the nature of constructs as social constructions, but to then apply strict measures of observation in an attempt to promote objectivity, and to rely on reliability and generalizations, instead of other validity evidence. From a knowledge use perspective, one may conclude an assessment study is fatally flawed if it fails to include error mitigation strategies (e.g., rater training) if that user held positivist position. Without attention to these issues, the assumption becomes that one can give a reasonable verdict on validity without specifying an account of assessment itself.

우리의 예
Our example

우리는 또한 우리 팀의 구성원들이 우리 자신의 연구에서 평가 특징의 기초가 되는 철학적 위치에 대한 주요 세부 사항을 누락하거나 모호하다는 것을 주목한다. 예를 들어, 우리는 철학적 입장을 우선시할 때 우리 자신의 논문 중 하나가 어떻게 다르게 보일지 고려했다(Tavares et al., 2018). 표 3에서, 우리는 발췌본을 선택하고 우리의 의도된 철학적 입장을 더 잘 보이게 할 원본 본문에 추가 사항을 제안했다. 우리는 이러한 방식으로 입장을 명시하는 것 외에도, 저자들은 그들이 선택한 철학적 입장이 자신들에게 또는 그것이 어디서 파생되는지를 정의할 책임이 있다는 것을 주목한다.
We note that members of our team have also omitted or been vague regarding key details about the philosophical positions underlying assessment features in our own research. As an example, we considered how one of our own papers would look different in prioritizing philosophical positions (Tavares et al., 2018). In Table 3, we selected excerpts and suggested additions to the original text that would make our intended philosophical positions more visible. We note that in addition to making positions explicit in this way, authors have the responsibility to also define what their chosen philosophical position(s) mean to them or from where it is derived.

HPE 평가 커뮤니티에 대한 권장 사항
Recommendations for the HPE assessment community

평가 커뮤니티를 발전시키면 다음과 같은 권장 사항을 활용할 수 있습니다.
Moving forward our assessment community may benefit from the following recommendations:

1. 평가에서 철학적 입장이 등장한 비교적 새로운 방식을 고려할 때, 다른 맥락(예: 과학적 탐구, 혼합 방법 연구, 의학 교육)에서 평가 맥락으로의 철학적 입장 전환을 검토한다.
1.Examine the translation of philosophical positions from other contexts (e.g., scientific inquiry, mixed methods research, medical education) to assessment contexts, given the relatively new ways philosophical positions have emerged in assessment.
2. 가능한 철학적 입장의 연속성을 배우고 평가 특징에 대한 결정에 미치는 영향을 고려하는 방법에 대한 책임을 집니다.
2.Assume accountability for learning about the continuum of possible philosophical positions, and about how to consider the implications for decisions about assessment features.
3. 평가 작업을 알리는 철학적 입장을 명확히 표현합니다(예: 표 3).
3.Clearly articulate the philosophical positions informing assessment work (e.g., Table 3).
4.철학적 입장을 이용하여 선택을 정당화하는 방법보다는 평가에 대한 설계와 이해를 직접 알립니다. 교육 연구에 이론을 사용하는 것과 유사하게, 철학적 입장은 생성적(즉, 평가 활동이 보증된 주장을 제공하는 방법과 이유)이 될 수 있는 기회를 제공한다.
4.Use philosophical positions to directly inform the design and understanding of assessment, rather than as a way to justify the choices made. Similar to the use of theory in education research, philosophical positions provide opportunities to be generative (i.e., how and why assessment activities provide warranted assertions).
5.철학적 입장, 철학적 다원성, 평가 특징 간 양립가능성의 역할과 관련성에 대해 계속 질문하고, 반박하고, 확장하며, 추가로 판단합니다.
5.Continue to question, refute, extend, and determine further the role and relevance of philosophical positions, philosophical plurality, and the compatibility within and across assessment features.
6.평가 과학에 관한 보고서가 공통의 언어, 의미 및 철학적 입장을 표현, 발전 및 도전적으로 사용하는 것에 대한 기대치를 공유하도록 하기 위한 예비 표준을 개발한다.

6.Develop preliminary standards to ensure reports on assessment science share a common language, meaning, and set of expectations for expressing, advancing, and challenging use of philosophical positions.

표 3 철학적 입장을 명시하기 위해 이전 연구에서 발췌한 내용을 재구성(Tavares et al., 2018)
Table 3 Reframing excerpts from a previous study (Tavares et al., 2018) to make philosophical positions explicit

 

한계
Limitations

우리는 2019년에 이 프로젝트를 시작했고 데이터베이스 인덱싱 제한 때문에 그 해까지의 기사는 포함하지 않았습니다. COVID는 우리를 더 지연시켰다. 따라서 일부에서는 이 분석을 "구식"으로 인식할 수 있지만, 중요한 서술적 관점은 연구자들이 대표적이라고 여기는 샘플을 깊이 조사해야 한다는 것을 시사한다는 점에 주목한다. 또한, 우리는 이러한 발견들을 우리의 논의에서 가장 최근의 문헌과 지침에 위치시켰으며, 평가에서 철학적 입장과 관련된 문제들이 해결되었다는 증거를 보지 못했다. 내재적 역할을 포함하는 성과 기반 평가에만 초점을 맞추기로 선택하면서, 우리는 그러한 연구가 인문학과 사회과학에서 내재적 역할의 뿌리와 관련된 보다 다양한 철학적 입장을 포함했을 수 있다고 가정했다. 또한 성과 기반 평가는 그러한 평가가 HPE에서 얼마나 잘 확립되어 있는지를 감안할 때 평가 기능의 기초 위치(예: 관찰자의 역할)를 보다 명확하게 개략적으로 설명할 수 있을 것으로 기대했다. 두 가지 가정 모두 이의를 제기할 수 있으며, 우리의 연구 결과는 다른 연구 표본(예: 필기 시험, 절차 기술)에는 적용되지 않을 수 있다. 또한, 세 가지 광범위한 평가 기능에 초점을 맞추기로 선택할 때, 우리는 다른 기능들을 고려하지 않았다. 일부 더 세분화된 것이 도움이 될 수 있다. 많은 다른 특징(예: 맥락의 역할, 표본 추출의 역할)을 고려할 수 있었지만, 우리는 구성의 특성, 관찰자의 역할 및 정당화 전략이 데이터 추출을 용이하게 할 만큼 충분히 일반적이라고 가정했다. 마지막으로, 우리는 검토자들을 철학적 입장의 두 가지 주요 극점에 민감하게 했다. 사후 긍정주의/객관주의/주관주의를 선택함에 있어서, 우리는 이것들이 중요한 견해이거나, 더 중요한 것은, 더 많은 변증법적 접근법(즉, 이것들과 다른 사고방식들 사이에서 움직이는 것)이 평가에서 고려되고 사용될 수 없는 견해라는 것을 제안하려고 의도하지 않았다. 이러한 이분법을 사용하는 우리의 선택은 HPE의 평가 과학 상태에 대한 우리의 이해에 기초했다. 변증법적 접근법의 역할과 사용을 포함하여 검토자를 다른 입장이 아닌 이러한 입장에 민감하게 만드는 것이 우리의 결과에 영향을 미쳤을 수 있다.

We began this project in 2019 and did not include articles up to that year due to database indexing limitations. COVID delayed us further. Consequently, some may perceive this analysis as “out of date”; however, we note that the critical narrative perspective suggests that researchers deeply probe a sample they deem to be representative. Further, we have positioned these findings in the most recent literature and guidelines in our discussion, and have not seen evidence suggesting issues related to philosophical positions in assessment have been resolved. In choosing to focus only on performance-based assessments that included an intrinsic role, we assumed such studies may have included more variable philosophical positions related to the roots of intrinsic roles in humanities and social sciences. We also expected performance-based assessments might more clearly outline the positions underlying the assessment features (e.g., role of observer), given how well established such assessments are in HPE. Both assumptions could be challenged, and our findings may not apply in a different sample of studies (e.g., written tests, procedural skills). Also, in choosing to focus on three broad assessment features, we did not consider others; some further granularity may be helpful. While many other features (e.g., the role of context, the role of sampling) could have been considered, we assumed that the nature of constructs, the role of observers, and justification strategies were common enough to facilitate our data extraction. Finally, we sensitized our reviewers to two major poles of philosophical positions. In selecting post-positivism/objectivism and constructivism/subjectivism, we did not intend to suggest that these are the views that matter, or more importantly, that more dialectal approaches (i.e., moving between these and other ways of thinking) cannot be considered and used in assessment. Our choice in using this dichotomy was based on our understanding of the state of assessment science in HPE. Sensitizing our reviewers to these and not other positions, including the role and use of dialectal approaches, may have impacted our results.

결론들
Conclusions

HPE의 평가 커뮤니티는 구성과 역량의 특성, 평가 방법의 사용 및 의사결정을 정당화하기 위한 증거의 사용을 이해하는 방법을 넓혔다. 이러한 각각의 측면은 서로 다른 철학적 위치에 의해 알려지는 것으로 보인다. 그러나, 대부분의 경우, 저자들은 그들의 근본적인 철학적 입장을 보이지 않게 하여, 의도와 의미를 추론할 수 있게 한다. 증가하고 변화하는 평가 커뮤니티에서 지식 사용자는 저자가 자신의 기본 가정을 준수했는지 여부, 다양한 평가 기능의 기초가 되는 가정에 호환성이 있는지 여부 및 방어 가능한 청구가 무엇인지에 대한 불확실성을 갖게 될 수 있다. 이러한 철학적 입장이 평가에서 가시화될 때까지, 이 문제를 탐구하는 것은 암묵적인 일로 남아있고 연구 질과 방어성을 판단하는 것은 누가 해석을 하는지에 의해 형성되는 가변 해석 과정이 된다.

The assessment community in HPE has broadened how it understands the nature of constructs and competence, its use of assessment methods, and its use of evidence to justify decisions. Each of these facets appears to be informed by different underlying philosophical positions. However, in most instances, authors have not made their underlying philosophical positions visible, leaving intentions and meaning to be inferred. In a growing and shifting assessment community, knowledge users may be left with uncertainty regarding whether authors have adhered to their underlying assumptions, whether there is compatibility in the assumptions underlying various assessment features, and what defensible claims can be made. Until these philosophical positions are made visible in assessment, exploring this issue remains an implicit affair and judging study quality and defensibility becomes a variable interpretive process that is shaped by who is doing the interpreting.

 

 


Adv Health Sci Educ Theory Pract. 2021 Aug 9.

 doi: 10.1007/s10459-021-10063-w. Online ahead of print.

Implicit and inferred: on the philosophical positions informing assessment science

Walter Tavares 1Kathryn Hodwitz 2Paula Rowland 3Stella Ng 4Ayelet Kuper 5Farah Friesen 6Katherine Shwetz 7Ryan Brydges 8

Affiliations expand

  • PMID: 34370126
  • DOI: 10.1007/s10459-021-10063-wAbstractKeywords: Assessment; Clinical competence; Paradigms; Philosophical positions; Validity.
  • Assessment practices have been increasingly informed by a range of philosophical positions. While generally beneficial, the addition of options can lead to misalignment in the philosophical assumptions associated with different features of assessment (e.g., the nature of constructs and competence, ways of assessing, validation approaches). Such incompatibility can threaten the quality and defensibility of researchers' claims, especially when left implicit. We investigated how authors state and use their philosophical positions when designing and reporting on performance-based assessments (PBA) of intrinsic roles, as well as the (in)compatibility of assumptions across assessment features. Using a representative sample of studies examining PBA of intrinsic roles, we used qualitative content analysis to extract data on how authors enacted their philosophical positions across three key assessment features: (1) construct conceptualizations, (2) assessment activities, and (3) validation methods. We also examined patterns in philosophical positioning across features and studies. In reviewing 32 papers from established peer-reviewed journals, we found (a) authors rarely reported their philosophical positions, meaning underlying assumptions could only be inferred; (b) authors approached features of assessment in variable ways that could be informed by or associated with different philosophical assumptions; (c) we experienced uncertainty in determining (in)compatibility of philosophical assumptions across features. Authors' philosophical positions were often vague or absent in the selected contemporary assessment literature. Leaving such details implicit may lead to misinterpretation by knowledge users wishing to implement, build on, or evaluate the work. As such, assessing claims, quality and defensibility, may increasingly depend more on who is interpreting, rather than what is being interpreted.

호환가능성 원칙: 임상역량 평가의 철학에 관하여(Adv Health Sci Educ Theory Pract. 2020)
The compatibility principle: on philosophies in the assessment of clinical competence
Walter Tavares1,2 · Ayelet Kuper1,3,4 · Kulamakan Kulasegaram1,5,6 · Cynthia Whitehead1,5

 

도입
Introduction

종종 암묵적인 철학적 입장은 [역량의 본질(즉, 온톨로지)], [사람들이 역량을 어떻게 알고 이해하고 평가하게 되는지(즉, 인식론)], 그리고 [이것들이 어떻게 집합적으로 정당화될 수 있는지]에 대한 인식을 뒷받침한다. [철학적 위치]란 [평가 연구자에게 평가 문제와 해결책을 검토하기 위한 렌즈를 제공하는 일련의 인정된 가정과 헌신 또는 지적 프레임워크]를 의미합니다. 예를 들어, 평가 모델과 관련된 오류의 정도에 대한 지표로서 신뢰성을 강조하는 것은 실증주의나 사후 긍정주의와 밀접하게 일치하는 심리측정학 또는 측정 모델에 의해 영향을 받는다. 
A range of often implicit philosophical positions have come to underlie perceptions of the nature of competence (i.e., ontologies), how people come to know, understand and assess competence (i.e., epistemologies), and how these can be collectively justified. By philosophical positions we mean sets of recognized assumptions and commitments or intellectual frameworks that provide assessment scholars with lenses for examining assessment problems and solutions. For example, emphasizing reliability as an indicator of the degree of error associated with an assessment model is influenced by a psychometric or measurement model that is closely aligned with positivism or post-positivism.

철학적인 입장이 한때 평가 공동체 내에서 암묵적으로 공유된다고 가정할 수 있었던 경우, 평가 과학의 발전은 더 넓은 범위를 고려해야 한다고 제안했다(Govaerts et al. 2007; Govaerts and Vleuten 2013; Hodges 2013). 이로 인해 서술형 코멘트 이용의 증가(Brutus 2010; Hanson 등 2013; Ginsburg 등 2015)와 평가자 변동성을 그저 노이즈가 아니라 시그널로 처리해야한다는 것과 같은 혁신이 이루어졌다. 

Where philosophical positions could once have been reasonably assumed to be shared implicitly within the assessment community, advances in assessment science have suggested that a wider range be considered (Govaerts et al. 2007; Govaerts and Vleuten 2013; Hodges 2013). This has led to such innovations as the increased use of comments (Brutus 2010; Hanson et al. 2013; Ginsburg et al. 2015) and the treatment of rater variability as signal as well as noise (Gingerich et al. 2014).

존재론적 및 인식론적 입장을 정의하고 그 정렬을 보장하는 것의 중요성은 보건 직업 교육 연구 영역 내에서 명확하게 확립되었다. 그러나, 무엇이 진실이고 알 수 있는가에 대한 믿음의 범위와 사람들이 어떻게 알게 되고 이해하게 되는지에 대한 그러한 명백한 인정은 평가에서 대부분 간과되어 왔다. 이는 역량, 평가 및 정당성에 대한 평가 설계자의 신념 사이의 무의식적인 모순과 부조화로 인해 평가 학문과 실습을 훼손할 가능성이 있다. 다양한 철학적 입장을 바탕으로 한 더 넓은 범위의 평가 전략의 사용이 평가 과학을 발전시킬 것을 약속하지만, 이는 또한 실제로 그러한 전략의 호환성과 관련된 새로운 논리적이고 경험적인 문제를 제기하고 있다.

The importance of defining ontological and epistemological stances and ensuring their alignment has been clearly established within the health professions education research domain. However, such explicit acknowledgement of the range of beliefs about what is real and knowable and about how people come to know and understand has largely been overlooked within assessment. This has the potential to undermine assessment scholarship and practice due to unwitting contradictions and incongruence between assessment designers’ beliefs about competence, its assessment, and justifications. While the use of a wider range of assessment strategies drawing on a variety of underlying philosophical positions promises to advance assessment science, this is also raising new logical and empirical challenges related to the compatibility of those strategies in practice.

평가 프로그램 설계에서 철학적인 입장을 신중하게 고려하지 않을 때 적어도 세 가지 잠재적 실제 문제가 발생할 수 있다. 이는 평가 프로그램의 주요 구성 요소들, 특히 아래의 구성 요소들 사이에 오정렬이 존재할 때 도출된다.

  • (a) 역량이란 무엇인가(존재론),
  • (b) 특정 전략과 활동을 결정하는 방법(인식론)
  • (c) 평가 프로그램으로부터 도출된 주장 또는 추론이 정당화될 수 있는 방법

At least three potential practical problems can emerge when philosophical positions are not carefully considered in the design of assessment programs. These are derived when misalignment between major components of an assessment program exist, specifically between

(a) what competence is (ontology),

(b) how specific strategies and activities are used to determine it (epistemology) and

(c) how claims or inferences derived from the assessment program can be justified.

첫째, 이러한 세 가지 평가 프로그램 구성요소에 대한 상충되는 가정과 약속과 관련된 철학적 입장의 암묵적 연결은 결과의 가능한 다중적 해석과 함께 혼란스럽고 제대로 뒷받침되지 않는 관행으로 이어질 수 있다.

둘째로, 양립가능성의 문제가 무시될 때, 철학적 입장이 행해지는 작업의 손해에 얼마나 중요한지를 무시하는 "뭐든 되는대로" 접근법이 평가를 지배할 수 있다.

셋째로, 그들의 근본적인 철학적 입장에 대한 명확성 없이 능력, 평가, 정당성에 대해 생각할 수 있는 방법들의 수가 증가하면서, 교육자들은 이러한 [철학적 위치 각각이 언제, 어떻게, 왜, 어떤 맥락에서 적절할 수 있는지], 그리고 [서로 다른 위치에 뿌리를 둔 관행이 동시에 통합될 수 있는지 또는 존재할 수 있는지]에 의문을 갖지 않게 된다.

First, the implicit linkages of philosophical positions associated with conflicting assumptions and commitments to these three assessment program components can lead to confusing and poorly supported practices with multiple possible interpretations of results. 

Second, when issues of compatibility are ignored, an “anything goes” approach can dominate assessment ignoring how philosophical positions matter to the detriment of the work being done.

Third, the increasing number of possibilities for ways to think about competence, assessment and justification without a clarification of their underlying philosophical positions leaves educators questioning when, how, why, and in what contexts each of these philosophical positions may be appropriate, and whether practices rooted in different positions can be merged or exist simultaneously.


잠재적인 발전 방법으로, 우리는 평가 과정과 그것의 정당성에 대한 근본적인 논리를 제공하는 [호환성 원칙compatibility principle] 을 제안한다. 이러한 [호환성]의 개념은 연구자들이 서로 다른 철학 지향적인 접근법들을 병합하는 것의 적합성에 대해 논의한 혼합 방법 연구의 [비호환성(비호환성)incompatibility (incommensurability)] 논문에서 채택되었다. (Howe 1988; Johnson and Onwuegbuzie 2004; Hathcoat and Meixner 2017) 

As a potential way forward, we propose a compatibility principle which provides a fundamental logic in the process of assessment and its justification. This notion of compatibility is adapted from an incompatibility (incommensurability) thesis in mixed methods research in which researchers have debated the suitability of merging different philosophically-oriented approaches (Howe 1988; Johnson and Onwuegbuzie 2004; Hathcoat and Meixner 2017).

평가에서, [호환성 원칙]은 [평가 계획 간] 및 [평가 계획 내]에 [서로 다른 철학적 입장]이 존재할 수 있다는 것을 인식해야 하는 의무를 의미하며, 이러한 입장이 평가 설계자를 특정 아이디어, 가정 및 약속에 commit하게 함을 의미한다. 이는 다음에 대한 개념화에 적용된다. 

  • 역량(즉, 구인)
  • 평가 전략(즉, 프로세스에 informing하는 guiding principle) 및
  • 활동(예: 도구, 데이터 수집 및 분석),
  • 정당화(예: 타당성 프레임워크의 적용) 및 해석.

In assessment, we propose that the compatibility principle refers to the obligation to recognize that different philosophical positions can exist between and within assessment plans and that these positions commit assessment designers to particular ideas, assumptions and commitments. This applies to conceptualizations of

  • competence (i.e., constructs),
  • assessment strategies (i.e., guiding principles informing processes) and
  • activities (e.g., tools, data collection and analyses), as well as
  • justification (e.g., application of validity frameworks) and interpretation.

 

우리의 주요 관심사는 (여러 다른 위치 내에서 데이터를 생성하는 데 종종 사용될 수 있기 때문에 사용되는) 평가 도구나 역학보다는, [철학적으로 정보에 입각한 평가의 논리, 가정 및 그 약속]이다. 우리는 이러한 근본적인 철학적 입장과 그들의 제정법이 평가 계획/프로그램의 적절성을 결정한다고 주장한다. 

Our primary concern is the logic of a philosophically-informed assessment, its assumptions, and its commitments, rather than with the assessment tools or mechanics being used, as the latter can often be used to produce data within multiple different positions. We argue that it is these underlying philosophical positions and their enactment that determines the appropriateness of an assessment plan/program.

여기서 우리는 주로 [평가 과학assessment science]의 현재 상태와 관련이 있다(실체론적 및 인식론적 정렬에 대한 유사한 초점은 평가에 대한 연구를 포함하여 연구 과정에서 엄격성에 대해 연구하고 가르치는 사람들에게 다소 오래된 개념이라는 것을 인지하고 있다). 우리의 프레임이 이와 다른 것은, 비록 평가 과학에서 연구 프로세스를 차용하였음에도, [(현재) 평가와 그 구성 요소 부분에서의 위치position의 다양성이 증가하는 맥락]에서, [철학적 위치의 역할과 관련성]이 아직 [좋은 평가를 위한 기준]을 구체화할 때 기본적인 것으로 인식되지 않았다는 점에서 다르다. 
Here we are primarily concerned with the state of assessment science (while recognizing that an analogous focus on ontological and epistemological alignment is a rather old concept to those who study and teach about rigor in the research process, including for research about assessment). However, while borrowing from the research process, our framing is different in that the role and relevance of philosophical positions in the context of a growing diversity of positions in assessment and its component parts has yet to be recognized as fundamental when specifying criteria for good assessment (Norcini et al. 2011; Eva et al. 2016; Norcini et al. 2018).

 

평가 프로그램의 구성요소에 정보를 제공하는 철학적 위치의 복수성
Plurality in the philosophical positions informing components of assessment programs

역량
Competence

[역량의 개념화]가 풍부한 이유는 부분적으로 그들에게 정보를 주는 철학적 위치 때문이다.

Conceptualizations of competence are plentiful in part because of the philosophical positions that inform them. 

[역량]이 [존재하며, 잠재된 특성latent trait으로 볼 수 있으며, 제한된 수의 대표 차원을 사용하여 측정할 수 있다]고 여기는 존재론적 위치를 고려하십시오.(Kane 1992; Epsein and Hundert 2002) (적용된 예로서 Fletcher 외 2003; Norcini 외 2003; Kim 외 2006; Tavares 외 2012 참조). 이러한 견해는 비록 사회적 맥락에 따라 다소 다르게 집행되더라도 진리의 개념인 실증주의, 후기 실증주의의에 대해 말하는 철학적 입장과 일치한다.

Consider the ontological position that competence exists, can be viewed as latent traits, and can be measured using a limited number of representative dimensions.(Kane 1992; Epstein and Hundert 2002) (see Fletcher et al. 2003; Norcini et al. 2003; Kim et al. 2006; Tavares et al. 2012 as applied examples). This view aligns with philosophical positions that speak of concepts of truth—positivism, post-positivism—even if enacted differently across social contexts. 

그러나 이러한 존재론적 입장은 더 이상 보건 직업 교육 내에서 보편적으로 유지되지 않는다. 일부는 후기 실증주의가 역량의 복잡성을 과소평가할 수 있다고 주장하며, 다른 철학적 입장에 의해 informed된 대안적 이해를 요구한다(Govaerts et al. 2007; Hodges 2013; Bartels et al. 2017). 그들은 [역량이 대인관계적이고, 사회적 위치에 있으며, 공동 구성되며, 직접적으로 측정할 수 없는 구조가 있다]고 제안한다. 이러한 관점에서 [제한된 수의 차원]만으로는 역량을 이해하는 데 필요한 모든 관련 속성이나 요소를 잘 나타내지 못한다.

  • 예를 들어, 쿠퍼 외 연구진. (2007) 해석론자/구성론자 온톨로지를 보유하고, 역량이 문맥에 얽매이고, 상황적, 대인관계 및 사회적으로 구성되었다고 기술했다(Kuper 등 2007).
  • 마찬가지로, 호지스와 링가드(2013)는 [특정한 시간과 장소에서 유능한 전문가가 되는 것이 무엇인지]에 대한 문화적, 정치적, 사회적, 행동적, 경제적 표현에 의해 "역량"이 형성되는 방식을 설명했다

However, these ontological positions are no longer universally-held within health professions education. Some have argued instead that post-positivism may underestimate the complexities of competence, calling for alternative understandings informed by different philosophical stances (Govaerts et al. 2007; Hodges 2013; Bartels et al. 2017). They suggest there are constructs for which competence is interpersonal, socially situated, co-constructed, and not directly measurable. In this view, a limited number of dimensions fails to represent well all the relevant attributes or factors necessary to understand competence.

  • For instance, Kuper et al. (2007) holding an interpretivist/constructivist ontology, described competence as context-laden, situational, interpersonal and socially constructed (Kuper et al. 2007).
  • Similarly, Hodges and Lingard (2013) described how “competence” is shaped by cultural, political, social, behavioral and economic representations of what it is to be a competent professional at a particular time and place (Hodges and Lingard 2013). 

종합하면, 역량은 [측정 가능한 대표 차원을 갖는 진실하고 잠재된 속성]을 반영하거나, [사회적 상호작용에서 파생되고 매개되어 공동 구성되는 것]으로 사용될 수 있다.

Competence can therefore be both as reflective of true, latent attributes with measurable representative dimensions and/or as co-constructions derived from and mediated by social interactions.

평가 전략
Assessment strategies

다른 철학적 입장은 또한 [역량이 어떻게 평가되어야 하는지]에 대해 우리를 다르게 인도한다. 이것은 기초적인 존재론적 가정과 구조와 그것의 평가를 알리는 약속 사이의 인식론적 짝짓기 또는 정렬의 유형을 포함한다. 예를 들어, 우리가 가지고 있는 근본적인 철학적 입장에 따라, 다중 샘플링의 목적, 의미 있는 데이터 출처, 평가자가 평가 과정에 참여하는 방법 및/또는 평가 프로그램의 방법이나 품질을 해석하는 방법에 대해 서로 다를 수 있다. [하나의 존재론적 및 인식론적 쌍]에서 높은 수준의 측정 오류를 발생시키는 것으로 볼 수 있는 평가 전략은, 정확히 [다른 존재론적 및 인식론적 쌍]에서 가장 유용한 유형의 활동일 수 있다. 즉, 교육자/연구자가 역량을 근본적으로 다른 방식으로 이해한다면, 어떤 평가 활동은 둘 중 하나 또는 다른 것과 더 잘 연계될 수 있다.

Different philosophical positions also guide us differently as to how competence should be assessed. This involves a type of epistemic pairing or alignment between the underlying ontological assumptions and commitments informing a construct and its assessment. For instance, depending on the underlying philosophical position(s) we hold, we may disagree on the purpose of multiple sampling, what data sources serve as meaningful, how raters are to engage in the assessment process, and/or how we should interpret the methods or quality of an assessment program. Assessment strategies that may be viewed as generating high levels of measurement error under one ontological and epistemological pairing may be precisely the kinds of activities that would be most informative in another. In other words, if educators/researchers understand competence in fundamentally different ways, it follows that some assessment activities may be better aligned with one or the other.

예를 들어, Whitehead 등(2015)은 역량을 존재론적으로 [사회적으로 구속되고 공동 구성된 것]으로 포지셔닝했다(즉, 구성주의와 일치한다). 따라서 민족지적 평가 활동을 사용하기 위한 후속 권고는 맥락상 일련의 복잡한 사회 구조로서 역량을 평가해야 하기 때문에 [논리적으로 인식론적 호환성]을 충족한다(Whitehead et al. 2015). 그러나 선택된 평가 활동과 관련된 [중립성neutrality의 정도]를 고려할 때 인식론적 쌍에 약간의 유연성이 존재한다. 
For example, Whitehead et al. (2015) positioned competence ontologically as socially bound and co-constructed (i.e., consistent with constructionism). Their subsequent recommendations to use ethnographic assessment activities therefore meets logical epistemic compatibility because of a need to assess competence as a series of complex social constructs in context (Whitehead et al. 2015). However, some flexibility in epistemic pairings exists when one considers the degree of neutrality associated with selected assessment activities.

예를 들어, [텍스트의 사용]은 인식론적으로 중립적인 것으로 간주될 수 있다. [역량을 포착하거나 반영하기 위하여 단어를 수집하는 기능적 활동]이 두 가지 이상의 방식으로 분석될 수 있기 때문이다: 가능한 분석 방법으로는 고전적인 콘텐츠 분석(즉, 단어 사용 횟수 계산)도 있지만 theory-informed 귀납적 및 해석적 비판적 접근법(Lincoln 및 Guba 1985)도 가능하다. 따라서 텍스트 데이터 자체가 어느 정도의 중립성을 허용한다. 따라서 평가 활동과 전략이 역량과 "중립성"의 정도에 대한 존재론적 위치와의 조정은 모두 관련이 있다.

For example, the use of text might be regarded as epistemologically neutral because the functional activity of gathering words intended to capture or reflect notions of competence may be analyzed in more than one way: analytic possibilities range from classical content analysis (i.e., counting how many times a word is used) (Neuendorf 2016) to theory-informed inductive and interpretive critical approaches (Lincoln and Guba 1985), thus allowing the textual data itself a degree of neutrality. The alignment that assessment activities and strategies have with ontological positions on competence and the degree of their “neutrality” therefore both become relevant. 

 

정당성으로서의 타당성
Validity as justification

평가의 또 다른 주요 구성요소는 타당성 프레임워크를 사용하여 평가 프로그램 데이터(즉, 정당성)에 적용되는 추론, 결정 또는 의미에 대한 논리적 및/또는 경험적 지원을 확립하는 것이다. 타당성의 많은 측면에 대한 합의가 있지만, 한 가지 핵심 의견 불일치는 근본적인 철학적 위치에 있다. 즉, [특정 타당성 프레임워크]를 사용한다는 것 자체만으로는 [특정 철학적 위치]를 본질적으로 나타내거나 자연스럽게 연관되지 않는다. 여전히 역량과 평가 활동에 대한 다양한 위치에 따라 coherence가 flexible하고 uncertain하다.

Another major component of assessment is the establishment of the logical and/or empirical support for inferences, decisions or meanings applied to assessment program data (i.e., justifications) using validity frameworks. While there is consensus on many aspects of validity Cizek 20122016) one key disagreement is in the underlying philosophical position. That is, the inclusion of a validity framework in and of itself is neither inherently indicative of, nor naturally associated with, a particular philosophical position, making coherence with varied positions on competence and assessment activities flexible but also uncertain. 

  • 예를 들어, 메식(Messick)은 속성을 특성화하려는 우리의 시도와는 무관하게 "구성주의적-현실주의" 방식으로 타당성을 기술하고 있으나, 실제로는 counterpart가 되는 구인이 있다고 여겨지곤 한다. 그러나 다른 이들은 메식(Messick)의 타당성 모델은 "[측정되고 있는 속성의 존재]에 대한 헌신을 필요로 하지 않는다"며 이 모델은 존재론적으로 자유롭거나 현실주의와 일치할 수 있다고 주장한다(후드 2009).
  • 좀 더 최근에. Kane (2013)은 타당성을 실용적이고 과학적인 활동으로 설명합니다(Kane 2013). 철학적 입장에 대한 우려는 타당성과 검증이 단지 주장에 달려있다는 견해 대신에 경시된다. 케인(2013)은 '진실'을 대변하는 것에 대해 어떠한 주장도 하지 않으며, 그보다는 진실을 뒤에 배경에 두고, 필요한 모든 수단을 사용하여 얻은 정당화한 믿음을 주장한다.
  • 그러나 Borsboom은 진실은 타당성 프레임워크의 중요한 특징이라고 주장한다. 진리와 명분이 분리될 수 있기 때문에 'justified true belief'이 'justified belief'을 대체해야 한다는 것이다. 

 

  • For example, Messick claimed to be describing validity in a “constructive-realist” way, arguing that attributes are real, independent of our attempt to characterize them, but that there may also be constructs for which there is no counterpart in reality (Hood 2009; Messick 1989). Others have argued that Messick’s validity model “does not require a commitment to existence of the attribute purportedly being measured” and that the model is ontologically free or possibly aligned with realism (Hood 2009).
  • More recently. Kane (2013) describes validity as a pragmatic, scientific activity (Kane 2013). Concerns over philosophical positions are downplayed in place of the view that validity and validation are simply contingent on the claims being made. Kane (2013) makes no claims about representing a “truth”, and instead argues for a justified belief obtained using whatever means necessary, leaving truth in the background. (Kane 2013)
  • Borsboom, however, argues that truth is an important feature of validity frameworks and that ‘justified true belief’ should replace ‘justified belief’ because truth and justification can come apart (Borsboom and Markus 2013; van Heerden Gideon and Mellenbergh 2013).

따라서 타당한 신념을 주장하는 많은 다른 방법들을 통합하기 위해 다른 철학적 관점을 활용하는 연구자들에 의해 타당성이 점점 더 많이 사용되고 있지만, 불행하게도 너무 자주 [관련 철학적 이슈와 그들의 함축에 대한 설명 없이] 채택되고 있다. 보건직업 교육에서 타당성을 탐구하는 최근의 검토에서도, 연구자들이 "사이코메트리", "대부분 사이코메트리" 또는 "대부분 전문가 판단"에 초점을 맞춘 검증 전략을 사용했다고 제안하는 것 말고는, 대부분 연구자들의 철학적인 입장을 식별하지 못했다.

Thus validity is increasingly used by researchers leveraging different philosophical perspectives to incorporate many different ways of arguing for a justified belief, but it is unfortunately too often adopted without explication of the relevant philosophical issues and their implications. Evan a recent review exploring validity in health professions education did not identify philosophical positions as a main finding other than suggesting researchers used validation strategies that focused on “psychometric”, “mostly psychometric” or “mostly expert judgment”. (St-Onge et al. 2017). 

요약하자면, 현대의 다양한 철학적 입장의 결과로 역량의 본질/정의에 가변성과 (암묵적으로 남겨진다면) 불확정성이 모두 존재하며, 역량의 평가에 사용되는 전략과 활동, 그리고 그 타당성/검증: 이들 사이의 논리적 일관성은 더 이상 (당연한 것으로) 가정될 수 없다. 
In summary, as a result of the variety of contemporary philosophical positions there is both variability and (when left as tacit) indeterminacy in the nature/definition of competence, the strategies and activities used to assess that competence, and their validity/validation: logical coherence between these can no longer be assumed.

[평가의 주요 구성요소에 대한 철학적인 입장]에 따라 [평가 프로그램의 품질과 적절성에 대한 해석]을 달리 해야 할 뿐만아니라, 서로 다른 [실용적인 선택]으로 해석되어야 한다. 기저의underlying 타당성을 포함하여 철학적 입장이 잘못 정의되거나 제대로 고려되지 않는 경우, 평가 프로그램을 개발하고 평가하는 사람들은 결국 다른 방식으로 의미를 부여하게 될 수 있다(Wiliam 2017). 혼합 방법 문헌의 토론을 바탕으로, 우리는 평가 구성 요소 간의 철학적 일치성에 주의를 기울임으로써 평가 프로그램을 훼손할 위험을 완화하는 방법으로 호환성 원칙을 제안한다.

The philosophical positions held about the major components of assessment should translate into different practical choices as well as different interpretations of the quality and appropriateness of assessment programs. When philosophical positions are ill-defined or poorly considered, including those underlying validity, then those who develop and evaluate assessment programs may end up ascribing meaning in different ways (Wiliam 2017). Drawing on debates in the mixed methods literature, we therefore propose a compatibility principle as a way of mitigating the risk of undermining assessment programs by giving attention to philosophical congruence between assessment components. 

Fig. 1

호환성 원칙: 철학적 일치성에 주의를 기울여 평가 프로그램의 훼손 위험 극복
The compatibility principle: overcoming the risk of undermining of assessment programs with attention to philosophical congruence


쿤(1970)에 의해 처음 소개된 철학적 입장의 [양립가능성Compatibility (or commensurability)]은 [혼합 방법 연구]가 진화하면서 강력한 주제가 되었다. 이러한 맥락에서 연구자들은 동일한 연구 내에서 [서로 다른 철학적 입장의 양립불가능성]에 대해 논의하였다. 부분적으로 논쟁은 문제가 반드시 실천 수준(예: 데이터 수집)이나 방법에서 발생하는 것은 아니며, [철학적 입장과 방법 사이에 일대일 대응은 없지만], 철학적 입장과 가정, 약속 및 해석 수준에서 문제가 발생한다는 것이다
Compatibility (or commensurability) of philosophical positions, introduced initially by Kuhn (1970), became a strong theme as mixed methods research evolved (Howe 1988). In that context researchers debated the incompatibility of different philosophical positions within the same study (Howe 1988). The argument in part was that problems emerge not necessarily at the level of practice (e.g., data collection) or methods—there is no one-to-one correspondence between philosophical positions and methods (Denzin and Lincoln 2011; Ghiara 2019) but at the level of philosophical positions and the assumptions, commitments and interpretations they impose.

이 논쟁은 소위 정량적 연구가 질적 방법과 더 존재론적으로 양립할 수 있는 개념을 포함할 수 있고(그 반대도 마찬가지), 각각의 기초가 되는 철학적 입장이 논리적으로 독립적이라는 것을 제시하면서 일부 [실용적인 관점]으로 이어졌다(존슨과 온웨그부지 2004).

  • 어떤 사람들은 논쟁은 [방법이나 현실의 본질 수준]을 다룰 것이 아니라, [질문의 수준]과 [합리적인 조사와 주장을 제공하기 위해 필요한 모든 것]이 되어야 한다고 느꼈다(Hathcoat and Meixner 2017).
  • 그러나, 다른 사람들은 [혼합 방법]이, 방법이 아니라, [철학적 일관성을 유지하는 것]에 달려 있다고 주장했고, 실용적인 "무엇이 효과가 있는가" 격언은 사회적 탐구social inquiry에서 피해갈 수 없는 철학적 측면을 무시했다고 주장했다. 이 프레임에서 보자면, (비)호환성은 연구원들이 가정이 모순되거나 충돌하는 철학적 입장을 가진 문제에 접근할 때 나타날 수 있다. 이 호환성 문제는 혼합 방법 연구 커뮤니티(Ghiara 2019)에서 계속 논의되고 있다.

This debate led to some pragmatic views, suggesting that so-called quantitative studies could include concepts that were more ontologically compatible with qualitative methods (and vice versa), and that the philosophical positions underlying each were logically independent (Johnson and Onwuegbuzie 2004).

  • Some felt that the debate should not be at the level of the methods or of the nature of reality, but at the level of the question and whatever it took to provide reasonable inquiries and assertions (Hathcoat and Meixner 2017).
  • However, others argued that mixing methods depended on maintaining philosophical consistency, as opposed to methods, and that the pragmatic “what works” maxim neglected the unavoidable philosophical aspects of social inquiry (Hathcoat 2013) In this framing, incompatibility can emerge when researchers approach problems with philosophical positions whose assumptions are contradictory or in conflict. This issue of (in)compatibility continues to be argued in the mixed methods research community (Ghiara 2019).

우리가 설명한 바와 같이, 보건 직업에서의 평가에서는 [역량, 평가 전략 및 정당성 수준에서 다양한 철학적 입장]이 존재합니다. 이러한 각 요소에 대해서 혹은 전반적으로, 일단 어떤 위치가 채택되면, 그 관점의 경험적 결과에 전념하게 된다. 이것들이 충돌할 때, 논리적, 경험적 비호환성의 위험이 나타난다. 그 결과, 정당성 주장은 결함이 있을 수 있고, 동일한 데이터에 대한 다중 해석이 존재할 수 있으며, 근본적인 가정을 무시하는 전략이 맹목적으로 영구화될 수 있으며, 평가에 새로운 학문을 가장 잘 활용하거나 통합하는 방법이 불분명해질 수 있다. 반면에 [평가의 호환성 원칙]은 (어떤 평가를 선택할지 유도하고, 주어진 맥락에 대해 허용되는 평가 전략의 경계를 결정하는) 철학적으로 정보에 입각한 평가의 논리를 촉진한다.
As we have described, within assessment in health professions education different philosophical positions now exist at the levels of competence, assessment strategies, and justification. For each of these components and overall, once a position is adopted, one is committed to the empirical consequences of that perspective. When these are in conflict, a risk of logical and empirical incompatibility emerges. As a result, justification arguments may become flawed, multiple interpretations of the same data can exist, strategies that ignore underlying assumptions may be blindly perpetuated, and the ways to best utilize or integrate new scholarship in assessment become unclear. A compatibility principle in assessment, on the other hand, promotes a logic of philosophically-informed assessment that drives assessment choices and determines the boundaries of acceptable assessment strategies for a given context.

호환성 원칙의 적용
The compatibility principle applied

이어지는 예에서, 우리는 [실증주의/후기 실증주의]와 관련된 가정과 약속을 평가 프로그램의 맥락에서 [구성주의]의 가정과 대조적으로 위치시킬 것이다. 우리는 건강 직업 교육의 최근 권고를 바탕으로 전자(Govaerts et al. 2013)의 한계에 대응하여 후자를 활용하기 위해 이러한 직책을 선택했다. 우리는 이러한 두 가지 철학적 입장이 양립할 수 없다는 것을 발전advancing시키는 데 있어 새로운 것은 없다는 것을 인식하지만, 역량, 평가 전략, 정당성 및 상호 작용을 고려할 때 평가에서의 적용은 덜 명확하다. 둘째로, 우리는 고려해야 할 철학적 입장이 더 많고 여기서 설명하는 것보다 선이 더 흐릿하다는 것을 인지한다. 주목하고자 하는 것은 (질적 대 정량적 토론이 아니라) 평가 설계자가 사용하고자 하는 [철학적 입장의 가정과 약속]이 중요하다는 것이다. 우리의 논지는 [입장이 서로 다른 경우]에는 [평가의 각 구성 요소에 대해 서로 다른 의무와 해석을 요구한다]는 것이다. 따라서 이러한 구성 요소들 사이에 평가 작업을 저해할 수 있는 방치된 부조화가 발생할 수 있다.

In the examples that follow, we position the assumptions and commitments associated with positivism/post-positivism in contrast with those of constructivism in the context of assessment programs. We selected these positions based on recent recommendations in health professions education to leverage the latter in response to the limitations of the former (Govaerts et al. 2013). We recognize that there is nothing new in advancing that these two philosophical positions are incompatible, but their application in assessment is less obvious when considering conceptualization of competence, assessment strategies, justifications, and their interactions. Second, we recognize that there are many more philosophical positions to consider and that lines are likely more blurred than we illustrate here. It is the attention to the assumptions and commitments of any philosophical position (as opposed to a qualitative vs. quantitative debate) that assessment designers intend to use that is of importance here. Our thesis is that different positions mandate different obligations and interpretations for each component of assessment. As such, left unattended, incongruencies can emerge between these components that can undermine assessment work.

예 1: 평가에 관찰자 사용
Example 1: the use of observers in assessment

가상의 예로서, [평가자의 판단과 관찰 결과를 샘플링하는 것]의 중요성에 기초한 임상 역량의 평가를 고려한다. 필연적으로 근본적인 철학적 입장과 연관된 많은 결정들이 내려진다. 예를 들어, 후기 실증주의적 위치(필립스와 버불즈 2000)를 채택하는 것은

  • 역량을 [어느 정도의 불완전성을 동반한다면, 측정이 가능한 개인(또는 팀/그룹) 내에 존재하는 잠재 속성의 집합]으로서 포지셔닝할 수 있다.
  • 후기 실증주의자들은 임상 자극에 대응하여 나타난 후보 행동에 기초하여 객관적이고 정확하게 정보를 전달할 수 있는 기회로 평가자와 평가자의 기여도를 위치시킬 수 있지만, 어느 정도의 [편향 또는 인간 영향]이 존재하고, 이는 제거되어야 할 소음이나 오류로 간주된다는 것도 인정한다.
  • 평가자에 의한 오류의 정도를 더욱 완화하기 위해 [평가자 교육]이 적용된다.
  • 평가 도구는 텍스트 유무와 관계없이 (평가자를 돕고 오류를 최소화하기 위해) 고도로 [구조화]될 수 있다. 텍스트가 사용되는 경우, 잠재 속성에 대해 더 자세히 설명하는 것입니다. 이 맥락에서 [샘플링]은 평가자에 기인하는 오류를 (수학적으로) 줄이기 위한 방법이다.
  • 마지막으로, 정당화 프로세스는 [신뢰성, 평가자 간 신뢰도, 항목 분석]과 같은 측정 기준을 포함하는 타당성 프레임워크를 사용하여 평가자 행동과 관련된 가정을 탐구할 수 있다.

Consider, as a hypothetical example, assessments of clinical competence based on assessors’ judgments and the importance of sampling their observations. A number of decisions are made that are unavoidably linked to underlying philosophical positions. For example, adopting a post-positivist position (Phillips and Burbules 2000) might include

  • positioning competence as a collection of latent attributes existing within individuals (or teams/groups) that are measurable but with some degree of imperfection.
  • Post-positivists may position assessors and their contributions as opportunities to objectively and accurately transfer information based on candidate behaviors exhibited in response to clinical stimuli, but with a recognized degree of bias or human influence that is considered noise or error to be eliminated.
  • Rater training is applied to further mitigate the degree of error attributable to assessors.
  • Rating tools may be highly structured (to assist raters and minimize error) with or without text. Where text is used, it is to further elaborate on latent attributes. Sampling in this context is a method for reducing error (mathematically) attributable to raters.
  • Finally, justification processes may use validity frameworks that include metrics such as reliability, inter-rater reliability, and item analyses to explore assumptions related to (and eventually to correct) rater behaviors.

 

그러나, [해석주의/구성주의] 관점에서 본다면, 역량은 [협상된 사회문화구조]에 더 가까울 수 있다. 

  • [평가자]는 주관적이고, 의미 있게 독특하고(더 좋을수록), 가치 중심적이며, 사회적 규칙과 맥락(예: 환경, 사회, 직업 문화)에 의해 수용될 수 있는 관점과 기여를 가지고 있다고 인식되고 평가된다. 
  • [평가자 교육(Rater Orientation)]은 행동을 교정하기 위한 것이 아니라 평가자가 자신의 역할과 기여가 어떻게 사용될 수 있는지를 이해하도록 하기 위한 것이다. 
  • [등급 척도]는 덜 체계적일 수 있으며, [텍스트 데이터]가 우선된다. 여기서 텍스트는 충분히 다양하고 여러 의미 있는(즉, 풍부하고 다양한) 데이터 소스 중 하나로 인식될 때 가장 가치가 있다. 
  • [표본 추출]은 평가자들의 수집이, 평가자 개개인의 고유한 기여도를 통해 구조를 충분히 대표할 수 있도록 하기 위한 의도일 수 있다. 
  • 정당화에는 타당성 프레임워크도 포함될 수 있지만(Cook et al. 2016), 정당화된 믿음에 대한 주장은 평가자의 성찰성, 평가자 기여의 다양성 및 생성되는 데이터의 신뢰성과 신뢰성에 대한 고려를 이끌어낼 수 있다. 

However, if viewed from an interpretivist/constructivist perspective, competence may be more of a negotiated sociocultural construction.

  • Raters are recognized and valued as subjective, meaningfully idiosyncratic (the more the better), values-driven, and having views and contributions that are acceptably shaped by social rules and contexts (e.g., environment, society, professional culture).
  • Rater orientation—rather than rater training intended to correct behavior—is intended to have assessors understand their role and how their contributions may be used.
  • Rating scales may be less structured and textual data is prioritized. Here text is most valuable when it is sufficiently varied and is recognized as one of multiple meaningful (i.e., rich and diverse) source of data.
  • Sampling may be intended to ensure that the collection of raters, in their unique contributions, sufficiently represent the construct.
  • Justification may also involve validity frameworks (Cook et al. 2016), but the arguments for a justified belief may draw on considerations of rater reflexivity, the diversity of rater contributions, and the credibility and trustworthiness of the data being generated. 

 

예 2: 텍스트 데이터의 사용 및 변환
Example 2: the use and conversion of textual data

한편, 수치numeric 대 서술narrative 평가의 사용을 탐구하는 최근 연구를 고려한다(Bartels et al. 2017). 저자들의 존재론적 및 인식론적 입장은 불분명하지만, 우리는 대안적 입장의 철저한 검토와 공정한 비판을 바탕으로 구성주의적 입장을 취하게 된다. 저자들은 ITER에서 수치 및 서술적 데이터를 소급하여 수집하고, 전문가들이 텍스트 데이터에 번호를 할당하도록 한 다음, 계산된 상관관계 및 신뢰성 분석을 실시했다. 이 시점에서, (만약) 우리의 가정이 정확하다면, 온톨로지와 인식론 사이의 호환성은 저자들의 철학적 위치는 문제가 된다.

Alternatively, consider a recent study exploring the use of numeric versus narrative evaluations (Bartels et al. 2017). The authors’ ontological and epistemological positions are unclear, but we are left to assume a constructivist stance—though we cannot be certain—based on their thorough review and fair criticism of alternative positions. The authors retrospectively collected numerical and narrative data from in-training evaluation reports, had experts assign numbers to the textual data, then calculated correlation and reliability analyses. At this point, compatibility between ontology and epistemology becomes a concern if our assumption about the authors’ philosophical position is accurate.

저자들은 통계 데이터를 정당성의 원천으로 사용하여 [변환된 서술형 평가]가 [숫자 점수만큼 신뢰할 수 있다]고 결론짓는다. 저자들은 암묵적인 견해 때문에 연구를 받아들일 수 있다고 생각한다. 그러나 이제는 다음을 포함한 여러 해석이 가능하다.

  • (a) 텍스트에서 숫자 데이터로 신뢰성으로의 변환이 적절한 경우
  • (b) 의미 있는 변화를 포착하기 위한 텍스트 사용이 이 접근법과 모순되는 경우
  • (c) 우리(지식 사용자)가 잠재적 호환성 문제를 해결하는 데 어려움을 겪고 있으며 연구를 잘못 이해한 경우

Using the statistical data as a source of justification, the authors conclude that converted narrative evaluations are as reliable as numeric scoring. The authors, we assume, found the study acceptable because of an implicit set of views. However, multiple interpretations are now possible including:

  • (a) that the conversion from text to numerical data to reliability was appropriate;
  • (b) that the use of text for the purposes of capturing meaningful variation is inconsistent with this approach; or
  • (c) that we (as knowledge users) are having difficulty resolving a potential compatibility issue and have misinterpreted the study.

따라서 많은 대안적 해석이 가능하며, (무엇이 증거로 간주되고 무엇이 문제인지 등) 사용자의 철학적 입장에 해석이 남겨져있다. 더욱이, [이 연구가 그 분야를 발전시킬 평가에 관한 더 넓은 대화 내에서 배치될 수 있는 방법]은, 저자들에게는 아닐지 몰라도, [(자신의 입장을 결정해야 하는 처지에 있는) 논문의 사용자들]에게 덜 확실해 보인다. 이 단락에서 논의한 논문이 있는 저자에 대한 공정성을 위해, 우리도 평가 관련 논문에서 우리 자신의 철학적 입장에 대해 명시적이지 않은 것에 대해 죄책감을 느껴왔다. 예를 들어 Tavares 외 2016을 참조하라. 또한, 논문에 철학적 입장이 명시적으로 드러나지 않는 문제는 결코 특이하거나 현재 이 분야의 실천기준에 못 미치는 것이 아니다; 오히려 이는 매우 일반적인 현상이며, 그렇기 때문에 우리는 이 논문을 쓰고자 하는 자극을 받은 것이다.

Many alternative interpretations are thus possible, leaving the interpretation to be guided by the philosophical positions of the user, including what counts as evidence and what is problematic. Further, the ways in which this work can be positioned within broader conversations about assessment that would advance that field become less certain, not necessarily to the authors, for whom these may seem clear, but to users of their contribution who are left to impose their own positions. In fairness to the authors whose paper we have discussed in this paragraph, we note that we too have been guilty of not being explicit about our own philosophical positions in assessment-related papers; see for example Tavares et al. 2016. Also, the lack of explicit philosophical positioning in their paper is in no way unusual or below the current standard of practice in the field; indeed, it is illustrative of the extremely common phenomenon that provided part of the impetus to write this article.

위의 예시들은 [표면적으로는 동일하게 보이는 평가 전략(예: 표본 추출, 평가자 기여)]이 [특정한 방식의 역량 개념화]와는 다소간 일치하거나 불일치할 수 있는 [다른 의미와 역할]을 가질 수 있음을 보여준다. 또한 서로 다른 방법과 철학적인 입장이 하나의 평가 프로그램 내에서 혼합될 경우, 그 결과에 대한 상반된 해석이 가능하다는 것을 명확히 보여준다. 이로 인해 교육자와 평가 연구원 모두 향후 평가 계획 또는 표준을 어떻게 진행해야 할지 불확실한 입장에 놓이게 됩니다. 서로 다른 철학적 입장을 사용하는 평가 프로그램이 서로 다른 방식으로 평가의 유사한 특징에 접근할 수 있는 방법에 대한 나란히 요약은 표 1을 참조한다.

These examples illustrate how assessment strategies that appear the same on the surface (e.g., sampling, rater contributions) can hold different meanings and roles that may align more or less with certain conceptualizations of competence: this is parallel by differences in how validity and validation are applied. They also make clear that if philosophical positions, as opposed to methods, are mixed within an assessment program, conflicting interpretations of its results are possible. This places both educators and assessment researchers in a position of uncertainty about how to proceed with future assessment plans or standards. See Table 1 for a side by side summary of the ways in which assessments programs using different philosophical positions could approach similar features of assessment in different ways.

표 1 서로 다른 철학적 입장을 사용하는 평가 프로그램이 서로 다른 방식으로 평가의 유사한 특징에 접근할 수 있는 다양한 방법에 대한 나란히 요약
Table 1 A side by side summary of the different ways in which assessments programs using different philosophical positions could approach similar features of assessment in different ways


[철학적 가정을 고려하지 않고] 매우 다른 평가 전략을 단일 프로그램에서 결합하려고 시도할 때, 추가적인 호환성 문제가 발생한다. 예를 들어, 역량에 관한 보다 강력한 종합 의사결정 프로세스를 위해 [시뮬레이션]과 [근무지 기반 평가WBA]를 결합하려고 노력하는 상황을 생각해보자.

  • [시뮬레이션 맥락]에서 역량은 종종 명확하게 정의되며 평가는 표준화, 일관성, 신뢰성 및 객관성을 촉진한다. 이것들은 후기 긍정주의 철학적 입장과 밀접하게 일치하는 공통 속성들입니다.
  • 그러나, [근무지 환경]에서, 어떤 사람들에게는 역량이 역동적이고, 문맥적으로 구속되고, 건설되고, 공식적이고 비공식적인 차원으로 사회적으로 위치하는 것으로 개념화 될 수 있다.

Further compatibility issues arrive when attempting to combine very different assessment strategies in a single program without considering their philosophical assumptions. Consider, for example, the effort to combine both simulation and workplace based assessments for a more robust summative decision making process regarding competence.

  • In a simulation context, competence is often clearly defined and assessments promote standardization, consistency, reliability and objectivity. These are common attributes closely aligned with a post-positivist philosophical position.
  • However, in workplace contexts, for some, competence may be conceptualized as dynamic, contextually bound, constructed and socially situated with formal and informal dimensions.

평가 프로그램을 구조화한다는 것은 다양성, 풍부성, 포괄성 및 주관성을 촉진하는 것을 의미할 수 있다. 이것은 구성주의 철학적 입장과 더 밀접하게 일치한다. 그 두 가지가 결합되면, 우리는 개념적인 투쟁을 하게 될지도 모른다. 예를 들어, 어떤 철학적 위치에서 정당화 전략을 알려야 하며, 다른 "경쟁" 위치에서 수집된 데이터가 어떤 방식으로 중요한가? 이러한 이슈는 특히 평가 결정이 엄격하게 정당화되어야 할 때 하찮지 않다.

Structuring assessment programs may mean promoting diversity, richness, comprehensiveness and subjectivity. This is more closely aligned with a constructivist philosophical position. When the two are combined, we might find ourselves in a conceptual struggle. For instance, under which philosophical position are we to inform justification strategies and in what way does data collected under a different “competing” positions matter? These issues are not inconsequential, particularly when assessment decisions have to be rigorously justified.

 

논리적 확장: 실용주의 및 기타 고려사항
Logical extensions: pragmatism and other considerations

실제 작업을 진전시키기 위해(평가 활동을 수행하고 정당화하는 업무를 계속하기 위해) 일부는 다양한 반대 입장을 취했습니다. [철학적 호환성]에 대한 우리의 주장의 약점 중 하나는 [평가 과학을 가이드하는 이상적인 철학적 위치]로서 [실용주의]의 역할과 적합성이다. 우리는 평가를 [사회적 탐구 과정]으로 설명했으며, 이 과정은 우리가 무엇을 이해하고, 예측하고, 그리고/또는 주장을 하는지에 대한 기본적인 철학적 입장에 의해 형성된다.
In order to move their practical work forward—to get on with the business of doing and justifying assessment activities—some have taken up various counter-positions. One of the claims to which our argument for philosophical compatibility may be vulnerable is the role and suitability of pragmatism as the ideal philosophical position to guide assessment science (recognizing that other positions, such as realism or philosophical pluralism, may be of equal interest). We have described assessment as a social process of inquiry, shaped by fundamental philosophical positions about what we are interested in understanding, predicting, and/or making claims.

일부에서는 [실용주의]가 오늘날 평가에서 [가장 적절한 철학적 위치]라고 주장할 수 있다. 왜냐하면 건강 직업에서의 평가가 정의하기 어려운 사회적으로 집행되는 주관적이고 추상적인 구조와 관련이 있기 때문이다. (Guon et al. 2018). 또한, [타당성/자원, 기회, 비용, 수용성, 평가자 행동, 교육적 영향 등의 균형을 유지해야 하는 필요성을 포함하여 많은 압박]이 평가 계획에 작용한다. 이것들은, 적어도 누군가에게는, 실용주의가 해결책이 될 수 있는 중요한 실용적인 질문들이다. 

Some may argue that pragmatism, as one such position, is the most appropriate philosophical position in assessment today in part because assessment in the health professions involves socially enacted subjective and abstract constructs that are difficult to define (Guyon et al. 2018). Further, a number of pressures act on assessment plans, including the need to balance feasibility/resources, opportunities, cost, acceptability, rater behaviors, educational impact, etc. These are important practical questions to consider of which pragmatism, for some, may be a solution.

실용주의는 어느 정도의 유동성과 개방성을 나타내며, 철학적 논쟁을 명확히 하는 방법을 제공할 수 있다. 여기에는 하나의 철학적 입장과 다른 철합적 입장사이에 무엇을 선택할지에 대한 문제의 해소, 또는 상충되거나, 알 수 없거나, 평가에 영향을 미치지 않는 "진실"과의 긴장 문제 해소 등이 포함될 수 있다(Bernstein 1989; Morgan 2014).

Pragmatism does represent a degree of fluidity and openness and may provide a way of clarifying philosophical disputes (Bernstein 1989). These may include resolving issues related to how to choose one philosophical position over another, or tensions with “truths” that are in conflict, are unknowable, or have no impact on assessment (Bernstein 1989; Morgan 2014).

그러나 우리는 [운영을 위한 접근법으로서 실천적practical이거나 실용적pragmatic이라는 평준한 정의("무엇이 효과가 있는가")]와 [긴 지적 역사를 가진 명시적이고 의도적인 철학적 위치로서의 실용주의] 사이에서 명확한 구분을 하고자 한다. (Dewey 2018; James 1907). 후자는 평가 문제에 대한 실행 가능한 접근 방식으로 제공할 수 있는 것이 많다.

However, we draw a clear distinction between

  • the lay definition of being practical or pragmatic as an operational approach (“what works”), which may be what is most commonly meant by pragmatism within assessment science, versus
  • pragmatism as an explicit and deliberate philosophical position with a long intellectual history (Dewey 2018; James 1907) that has much to offer as a workable approach to assessment problems.

호환성 원칙에 도전하는 다른 아이디어도 고려할 가치가 있다. 

  • 예를 들어, 평가 과학은 평가의 성격과 수행에 대한 공통된 믿음을 나타내는 많은 예시를 가질 수 있다(예: 프로그램 평가). 실용주의나 철학적 입장의 혼합에 근거한 평가는 양립원칙의 필요성에 도전할 수 있는 예로 제시될 수 있다. 
  • 유사한 개념은 [혼합 방법 연구]에서 [모범으로서의 패러다임]으로 설명되었으며 평가 작업의 뉘앙스와 평가 필드를 채울 가능성이 높은 수많은 철학적 입장을 수용하는 방법을 제공한다고 주장될 수 있다. 
  • 또한 [서로 다른 존재론적, 인식론적 경로 또는 이들의 pairing]을 통해 평가 프로그램을 수행함으로써, [서로 다른 관점을 촉진]하고, [기존에 당연하게 여겨왔던 것]에 대한 검토를 촉진할 수 있는 경우도 있을 것이다. (Greene 2006; Uprichard and Dawney 2016; Ghiara 2019) 

Other ideas challenging a compatibility principle are also worth considering.

  • For instance, assessment science may have a number of exemplars that represent a shared belief about the nature and conduct of assessments (e.g., programmatic assessments). Assessments grounded in pragmatism or in the mixing of philosophical positions may be presented as exemplars that may challenge the need for a compatibility principle.
  • A similar concept has been described in mixed methods research as paradigms-as-exemplars and may be argued to provide a way of accommodating nuances in assessment work and the numerous philosophical positions that are likely to populate the assessment field.
  • In addition, there are likely to be instances in which assessment programs can be conducted through different ontological and epistemological pathways or pairings thereby facilitating different points of view and promoting helpful examination of taken for granted understandings. (Greene 2006; Uprichard and Dawney 2016; Ghiara 2019).

앞으로 가는 길
Ways forward

[평가 설계]와 [평가 품질의 결정]은 [지표를 만들고 관행을 평가하는 사람들]의 신념과 기준의 적용을 받는다. 이러한 신념과 기준은 결국 수많은 철학적 위치에 의해 형성되고 정보에 의해 형성되는 사회적 과정을 적용한다. 우리는 HPE에서 평가에 대한 철학적 관점의 다양성이 증가하였다는 것에 encourage되었지만, 동시에 [다양한 철학적 위치의 적용]과 관련된 가정과 헌신은 새로운 영역에 초점을 둘 필요를 요구함을 인지하고 있다. 예를 들어, 우리는 결과와 정당성의 다중적인 의미 또는 상충되는 해석을 피하려면, [다양한 포지션]이 어떻게 [구조의 개념화]로 변환되는지, 그리고 그것들이 특정 평가 활동과 어떻게 정렬(또는 정렬되지)되는지에 주목해야 한다. 
Assessment design and the determination of assessment quality are subject to the beliefs and standards of those who create indicators and evaluate practices. These beliefs and standards are, in turn, applied social processes shaped and informed by numerous philosophical positions. We are encouraged by the growing diversity of philosophical views on assessment in health professions education but also recognize that assumptions and commitments associated with the application of different philosophical positions require new areas of focus. For example, we now must attend to how various positions translate into conceptualizations of constructs and how those are aligned (or not) with specific assessment activities in order to avoid the multiple meanings or conflicting interpretations of results and justifications.

건강직업 평가를 알리는 철학적 입장의 범위가 넓어지면서 [평가 실천의 논리와 정당성]에 대한 관심이 필요하다. 이런 식으로, [특정한 방법이 특정한 철학적 입장과 반드시 연관되지는 않기 때문에], 방법들에 대한 논쟁이나 경계 작업은 피할 수 있고, 철학적인 입장은 몇몇 유사한 방법과 일치할 수 있고, 연구자들은 하나의 철학적 입장을 채택하면서 방법들을 혼합할 수 있다. 더불어, 철학적 지위의 우월성에 대한 논쟁은 덜 강조될 수 있다. 흥미로운 것은 평가 학문과 실천에서 철학적인 입장이 어디서 그리고 어떻게 명확성, 일치성, 모순을 보이는가이다.

As the range of philosophical positions informing health professions assessment broadens, attention to the logic of assessment practice and justification is needed. In this way, debates or boundary work over methods can be avoided, since methods are not associated with a specific philosophical position, a philosophical position can be congruent with several similar methods, and researchers can mix methods while adopting one philosophical position. Also, debates over the superiority of philosophical positions can be deemphasized. What is of interest is where and how philosophical positions exhibit clarity, congruence, and contradictions in assessment scholarship and practice.


우리는 철학적 입장 사이의 경계가 항상 매우 뚜렷하거나 양립할 수 없다고 제안하지는 않는다. 이들을 가로지르는 투과 가능한 경계는 많은 경우에 [호환성 제약]을 완화한다. 교육 연구의 개념 및 이론적 프레임워크(Bordage 2009) 또는 혼합 방법 연구의 발전(Teddlie 및 Tashakkori 2012)에 적용되는 가치와 마찬가지로, 평가 분야에서도 철학적 다원주의의 여지가 있다. 쿤은 의사소통의 붕괴를 피하기 위해서 중요한 것으로 [(하나의 특정 입장이 아니라) 공통적으로 합의된 어휘와 원칙의 집합의 가치]를 설명했다.(Kun 2012; Morgan 2007) 이 시점에서 더 이상의 조직을 장려하는 것은 시기상조이며 불분명한 경계나 통일성을 확립하려는 잘못된 시도이거나, 더 나쁜 것은 다양한 관점과 이해의 기회를 침묵시키려는 잘못된 시도일 수 있습니다.
We do not suggest that the boundaries between philosophical positions are always highly distinct or incompatible. The permeable boundaries across them loosen compatibility constraints in many cases. Much like the value applied to conceptual and theoretical frameworks in education research (Bordage 2009), or advances in mixed methods research (Teddlie and Tashakkori 2012), there is room for philosophical pluralism in the field of assessment. Kuhn described the value of a commonly agreed upon vocabulary and set of principles (not a specific position) to avoid breakdowns in communication.(Kuhn 2012; Morgan 2007) Encouraging any more organization at this point may otherwise be premature and a misguided attempt to establish unclear boundaries or uniformity or, worse, to silence diverse perspectives and opportunities to further understanding.

다음 방법을 사용하는 것이 좋습니다.
As a way forward, we recommend the following:

a. 철학적 입장(그것이 혼합된 경우에도)을 명확하게 표현하고 합리화합니다. 그래야 지식 사용자가 가정을 이해하고 명시된 입장과 관련하여 정당성을 이해하고 검토할 수 있다. 예를 들어, 교육자는 관찰자의 철학적 위치 선택에 따라 다르게 지침을 구성할 수 있다(예: 주관성을 최소화하거나 촉진한다). 동일한 평가 계획 내에서 그리고 지식 사용자에게 적용되는 철학적 입장에 따라 적절하거나 결함이 있는 전략이 될 수 있다.
a.Clearly articulate and rationalize philosophical positions—including when they are mixed—so that knowledge users may understand assumptions and make sense of and examine justifications in relation to the stated position(s). For example, an educator may structure guidance for observers differently depending on their choice of philosophical position (e.g., minimize or promote subjectivity). Within the same assessment plan and to the knowledge user, either could be an appropriate or flawed strategy depending on the applied philosophical position(s).

b.한 철학적 입장이 다른 것보다 낫다는 섣부른 주장을 피하고 대신 각각의 장점, 경계, 관계, 혼합 및 양립성을 개발하는 데 초점을 맞춘다. 많은 철학적인 입장이 몇 가지 유사한 방법을 채택할 수 있기 때문에, 여기에는 데이터 수집(예: 양적 대 질적 또는 기타 유사한 산만 요소)이 저하되는 논의로부터 보호하는 것이 포함된다.

b.Avoid premature claims that one philosophical position is better than another and instead focus on developing the merits, boundaries, relationships, mixing and compatibility within and/or between each. This includes guarding against discussions that degrade to data collection (e.g., quantitative vs. qualitative or other similar distractors), as many philosophical positions can employ several similar methods.


c. 평가 맥락에서 [철학적 입장의 역할과 관련성 및 여러 철학적 입장의 양립가능성]과 관련하여, 추가적인 핵심 가치나 원칙에 대해서 의문을 가지고, 반박하고, 세분화하고, 확장하고 또는 결정한다. 
예를 들어, 철학적 다원주의를 위해서는 호환가능성이 거부되어야 하는가?
c.Question, refute, refine, extend and/or determine further a core set of values/principles related to the role and relevance of philosophical positions and their compatibility in an assessment context. For example, should compatibility be rejected for philosophical pluralism?

d.이분법이 아니라 '호환성'에서 '비호환성'에 이르는 연속체로 기술하는 전략과 기준을 수립합니다. 실증주의를 구성주의로부터 묘사하는 것은 현실주의, 상대주의, 포스트 구조주의, 실용주의, 또는 철학적 다원주의를 고려할 때 존재할 수 있는 것보다 덜 복잡할 수 있다.

d.Establish strategies and criteria to delineate along a continuum (as opposed to a dichotomy) from ‘compatible’ to ‘incompatible’. Delineating positivism from constructivism may be less complex than what might exist when considering realism, relativism, post-structuralism, pragmatism, or philosophical pluralism.

e.평가를 제공하는 철학적 위치가 넓어짐에 따라, 설계자(및 연구자)는 이러한 문제와 관련된 광범위한 지식 기반과 역량 세트를 갖춰야 할 수도 있다. 예를 들어, HPE의 평가에 대한 전통적인 텍스트를 다양한 적용 가능한 철학적 위치와 관련된 내재된 가정과 의무에 대해 상세히 설명하는 텍스트로 보완하는 것이 포함될 수 있다.
e.Given the broadening philosophical positions informing assessment, designers (and researchers) may require a broadened knowledge base and set of competencies related to these issues. This may include for example, complementing traditional texts about assessment in the health professions with texts elaborating on the inherent assumptions and commitments associated with various applicable philosophical positions.

평가 과학의 발전을 지원하기 위한 시사점 및 프로세스의 추가 예는 박스 1을 참조하십시오.
See Box 1 for additional examples of implications and processes that are intended to support the advancement of assessment science.

Box 1 Examples of implications and processes informed by our recommendations

결론들
Conclusions

보건 직업 교육자들은 임상 역량의 여러 미묘한 측면을 평가하는 임무를 맡고 있다. 이는 평가 커뮤니티가 [(종종 암묵적으로) 기본 철학적 입장의 범위를 넓히는 방식]으로 역량, 평가 및 정당성을 탐구하도록 이끌었다. 이러한 다양한 철학적 입장은 이러한 구성 요소에 대한 이해와 사용을 새로운 방식으로 확장하는 데 도움이 되지만, 동시에 평가 프로그램을 저해할 수 있는 두 구성 요소 간의 비호환성의 위험을 초래한다. 여기에는 추론, 품질 및/또는 방어성이 어렵거나 불확실하거나 의도하지 않은 해석을 남기는 것이 포함된다. 이 성찰에서 우리는 임상 역량 평가에 철학적으로 정통한 탐구 논리를 적용하는 것의 가치를 입증한다.
Health professions educators are tasked with assessing multiple nuanced aspects of clinical competence. This has led the assessment community to explore competence, assessment and justifications in ways that involve broadening the range of (often implicit) underlying philosophical positions. This variety of philosophical positions helps to expand our understanding and uses of these component parts in new ways but also introduces a risk of incompatibility between them, that can undermine assessment programs. This includes leaving interpretations of inferences, quality, and/or defensibility difficult, uncertain, or unintended. In this reflection we demonstrate the value of applying a philosophically informed logic of inquiry in the assessment of clinical competence.

철학적 입장은 궁극적으로 우리가 평가에서 어떻게 행동하고 우리가 주장하는 것에 영향을 미칩니다. 비트겐슈타인의 조사 철학에 따른 규칙에 대해 부르불레스(1993)는 다음과 같이 썼다: "규칙(존재론과 인식론)이 실천을 guide하지만, 실천을 지배rule하지는 않는다; 규칙들은 내재되어 있으며, 행위자actor의 "상황state of play"와 그들의 가치에 무의식적으로 영향을 미친다. 선택이 아니라 성향disposition이다(Burbules 1993)." 평가 과학을 발전시키기 위해서, 우리는 우리가 하는 일에 그러한 [성향]들을 분명히 할 필요가 있습니다.

Philosophical positions ultimately influence how we act in assessment and the claims we make. As Burbules (1993) wrote about rules according to Wittgenstein’s philosophy of investigations: “Like rules [ontologies and] epistemologies guide practice but do not rule it; they are embedded and unconsciously affect the “state of play” of the actors and their values. Not so much a choice as it is a disposition”(Burbules 1993). In order to advance assessment science, we need to make those dispositions explicit in the work that we do.

 

 

 


Adv Health Sci Educ Theory Pract. 2020 Oct;25(4):1003-1018.

 doi: 10.1007/s10459-019-09939-9. Epub 2019 Nov 1.

The compatibility principle: on philosophies in the assessment of clinical competence

Walter Tavares 1 2Ayelet Kuper 3 4 5Kulamakan Kulasegaram 3 6 7Cynthia Whitehead 3 6

Affiliations expand

  • PMID: 31677146
  • DOI: 10.1007/s10459-019-09939-9AbstractKeywords: Assessment; Clinical competence; Educational measurement; Performance based assessment; Philosophy; Rating process; Validity.
  • The array of different philosophical positions underlying contemporary views on competence, assessment strategies and justification have led to advances in assessment science. Challenges may arise when these philosophical positions are not considered in assessment design. These can include (a) a logical incompatibility leading to varied or difficult interpretations of assessment results, (b) an "anything goes" approach, and (c) uncertainty regarding when and in what context various philosophical positions are appropriate. We propose a compatibility principle that recognizes that different philosophical positions commit assessors/assessment researchers to particular ideas, assumptions and commitments, and applies ta logic of philosophically-informed, assessment-based inquiry. Assessment is optimized when its underlying philosophical position produces congruent, aligned and coherent views on constructs, assessment strategies, justification and their interpretations. As a way forward we argue that (a) there can and should be variability in the philosophical positions used in assessment, and these should be clearly articulated to promote understanding of assumptions and make sense of justifications; (b) we focus on developing the merits, boundaries and relationships within and/or between philosophical positions in assessment; (c) we examine a core set of principles related to the role and relevance of philosophical positions; (d) we elaborate strategies and criteria to delineate compatible from incompatible; and (f) we articulate a need to broaden knowledge/competencies related to these issues. The broadened use of philosophical positions in assessment in the health professions affect the "state of play" and can undermine assessment programs. This may be overcome with attention to the alignment between underlying assumptions/commitments.

+ Recent posts