암묵적이고 추론되는: 평가 과학에 도움이 되는 철학적 입장에 대하여(Adv Health Sci Educ Theory Pract. 2021)
Implicit and inferred: on the philosophical positions informing assessment science
Walter Tavares1 · Kathryn Hodwitz2 · Paula Rowland3 · Stella Ng4 · Ayelet Kuper5 · Farah Friesen6 · Katherine Shwetz7 · Ryan Brydges8

 

도입
Introduction

보건 분야의 교육자들은 평가를 체계화할 때 점점 더 역설적인 상황에 직면한다. 한편, 평가의 발전은 평가의 특징에 대한 사고와 접근 방식을 넓혔다(Tavares et al., 2019). 즉, 다른 분야와 마찬가지로, 평가 문제를 해결하는 방법은 다양한 철학적 위치에서 질문되고 있다. 반면에, 이처럼 [확대된 견해]는 [평가 전략에 접근하고, 평가 전략을 평가하는 최선의 방법]에 대한 긴장을 조성한다. 
Health professions educators face a growing paradox when structuring assessment. On the one hand, advances in assessment have broadened how we think about and approach features of assessment (Tavares et al., 2019). That is, ways of solving assessment problems are now interrogated from a variety of philosophical positions, such as post-positivist and constructivist lenses (defined below) among others (Govaerts et al., 20072013). On the other hand, these broadening views create tensions in how best to approach and evaluate assessment strategies.

[철학적 입장(패러다임이라고도 함)]은 (역량의 본질, 평가 방법 및 타당성 주장의 구조를 이해하는 방법을 포함하여) 학자들에게 [문제와 해결책을 검사하기 위한 렌즈를 제공하는 일련의 인정된 가정 또는 지적 프레임워크]를 나타낸다(Tavares et al., 2019). 이러한 입장이 평가 컨텍스트에서 혼합될 때 다음과 같은 문제가 발생할 수 있습니다.
Philosophical positions (also referred to as paradigms) represent sets of recognized assumptions or intellectual frameworks that provide scholars with lenses for examining problems and solutions (Kuhn, 1996; Tashakkori & Teddlie, 2010), including how we understand the nature of competence, ways of assessing, and the structuring of validity arguments (Tavares et al., 2019). When these positions intermingle in an assessment context, questions can arise, such as:

  • 동일한 수행에 대한 서로 다른 평가 점수는 [오류]로 보아야 하는가 또는 [의미 있는 풍부성]으로 간주해야 하는가?
  • [서면 코멘트를 평가 데이터로 사용하는 것]이 개인의 "진정한" 능력을 삼각측량할 수 있는 기회를 제공하는가? (즉, 잠재적 특성latent traits 집합으로서의 역량)
  • [서면 코멘트]는 주어진 맥락과 시간에서 개인에 대한 이야기를 공동 구성하는 데 기여하는가(즉, 사회적으로 구성된 역량)?

 

  • Should we treat different rater scores of the same performance as error or as meaningful richness?
  • Does the use of written comments as assessment data provide opportunities for triangulating the “true” capabilities of individuals (i.e., competence as a collection of latent traits)? or
  • Do written comments contribute to co-constructing a narrative about individuals in a given context and time (i.e., competence as socially constructed)?

이러한 질문 및 기타 근본적인 평가 관련 질문에 대한 반응은 적용되는 철학적 입장에 따라 달라질 것이다. 평가의 우수성을 보장하기 위해, 이러한 긴장감의 함축성을 검토해야 하며, 여기에는 방치된 철학적 입장과 관련 가정이 평가 과학 내에서 무언의 긴장을 초래하고 따라서 차선의 구체화와 실천이 어떻게 이루어질 수 있는지를 포함시켜야 한다.

Responses to these and other fundamental assessment-related questions will vary based on the underlying philosophical positions applied. To ensure excellence in assessment, the implications of this tension must be examined, including how unattended philosophical positions—and their associated assumptions—may lead to unspoken tensions within assessment science and thus sub-optimal materializations and practices.

표 1 다른 철학적 입장이 교육자로 하여금 다른 평가 전략을 적용하도록 이끌 수 있는 방법에 대한 래터 훈련을 사용하는 가상의 예
Table 1 A hypothetical example, using rater training, of how different philosophical positions can lead educators to apply different assessment strategies

 

평가에 대한 철학적 입장의 다양성은 적어도 세 가지 관련 문제를 제기한다.

The diversity in philosophical positions informing assessment raises at least three related issues. 

첫째, 평가의 각 핵심 특징(즉, 구성/역량의 특성, 평가 활동, 정당화 전략)은 서로 다른 철학적 위치에 의해 inform될 수 있기에, 동일한 개념에 대한 서로 다른 이해로 귀결될 수 있다. 우리는 같은 언어를 사용할지 모르지만 다른 의미를 의도한다. 예를 들어, [구성이나 역량의 특성]은 [잠재된 특성]들의 집합으로 볼 수 있으면서(Borsboom, 2005), [사회적으로 구성된 것]으로 볼 수도 있다(Kuper 등, 2007), 또는 관찰될 수 있는 범위 내에서만 현실로 볼 수 있다.

First, each core feature in assessment (i.e., nature of constructs/competence, assessment activities, justification strategies) can be informed by different philosophical positions, resulting in different understandings of the same concepts. We may use the same language but intend different meanings. For example, the nature of constructs or competence can be viewed as a collection of latent traits (Borsboom, 2005), as socially constructed (Kuper et al., 2007), or as real only to the extent that it can be observed. 

둘째, 평가 설계자는 철학적 가정을 완전히 고려하지 않은 경우 자신도 모르게 [평가 프로그램의 구현을 저해할 위험]이 있다. 존재론적 및 인식론적 쌍pairing(예: 구성을 인식하는 방법과 평가되는 방법)은 평가 프로그램을 가이드 할 수 있지만, 그러려면 관련된 가정의 논리와 "규칙"을 주의하고 준수해야만 한다. (다수의) 특징과 논리를 아우르는 이러한 일관성을 "호환가능성 원리"로 설명되었다(Tavares et al., 2019).

  • 비호환성의 한 가지 예는, 연구자들이 역량을 사회적으로 구성된 것으로 보는 것에서 시작하지만(이 관점에서 다양한 데이터 출처와 유형을 수집하도록 유도할 수 있음),
  • 모델의 방어성 또는 신뢰성을 입증할 때에는 신뢰성 지표(예: 크론바흐의 알파)를 보고하는 등 field-level norm을 따르는 것이다.

다양한 출처의 데이터를 가지고 오로지 일관성을 추구한다면, 이 경우 "비호환성"이 발생할 가능성이 높아진다. 이러한 모습은 평가의 세 가지 핵심 요소, 즉 [구성, 데이터 수집, 정당화constructs, data collection, and justification]의 근간이 되는 철학적 입장에 존재하는 긴장을 반영한다.

Second, assessment designers may be at risk of unwittingly undermining the implementation of assessment programs when they have not fully considered their philosophical assumptions. Ontological and epistemological pairings (e.g., how we perceive constructs and how they are to be assessed) can guide assessment programs; however, this obligates attention and adherence to the logic and “rules” of related assumptions. This coherence across features and logic has been described elsewhere as a “compatibility principle” (Tavares et al., 2019).

  • An example of a potential incompatibility begins with researchers viewing competence as socially constructed, a view that might lead to collecting diverse data sources and types,
  • but then follow field-level norms by reporting reliability indicators (e.g., Cronbach’s alpha) to demonstrate the model’s defensibility or trustworthiness.

The generation of diverse data sources only to seek their consistency presents the potential for “incompatibility” and reflects tensions in the philsophical positions underpinning three key components of assessment, namely views on constructs, data collection, and justification. 

셋째, 평가 프로그램에 의해 생성된 데이터를 적절히 평가하려면, [최종 사용자는 설계자의 철학적 입장과 가정을 이해해야 하며], 이에 대한 최종 데이터를 비교하고 품질을 평가할 수 있다(Kane, 2013; Markus & Borsboom, 2013). 우리는 이것이 연구자들이 그들의 입장을 명시적으로 진술하고 질적 연구에서 반사성reflexivity에 관여하는 역할과 가치와 유사하다고 생각한다. 그래야만 최종 사용자는 결과를 더 잘 이해하고, 결과를 더 잘 포지셔닝시킬 것이며, 과학적 엄격성과 품질을 평가할 수 있습니다. 
Third, to adequately evaluate the data generated by assessment programs, end users must understand the designer’s philosophical positions and assumptions, against which they can compare the eventual data and appraise its quality (Kane, 2013; Markus & Borsboom, 2013). We consider this as analogous to the role and value of researchers explicitly stating their stance and engaging in reflexivity in qualitative research (Crotty, 1998; Denzin & Lincoln, 2008; Guba & Lincoln, 1994). Doing so helps end users to better understand and position results, and to evaluate scientific rigor and quality. 

잠재적 함의를 감안할 때, 우리는 보건직업 교육(HPE)의 평가 과학자와 설계자가 그들의 실무에서 철학적 입장의 역할에 대해 어떻게 보고했는지 이해하는 것을 목표로 했다. 우리는 특히 사용자가 해당 정보를 어떻게 찾고 사용할 수 있는지를 이해하고 추론하려고 노력했다. 특히, 우리는 "내재적 역할intrinsic role"(예: 커뮤니케이션, 전문성, 리더십)에 대한 평가에 초점을 맞췄다(Sherbino 등, 2011년) 많은 학자들은 [내재적 역할이 [인문사회과학의 철학] 안에 가지고 있는 뿌리]에 대한 동등한 강조 없이 대안적 평가 활동의 필요성만을 강조해왔다. 예를 들어 이러한 역할에 대한 평가를 의료 전문지식medical expertise과 통합할 수 있다고 가정하면, philosophically-informed assessment라는 관점에서 볼 때 잠재적인 논리적 결함이 발생한다. 
Given the potential implications, we aimed to understand how assessment scientists and designers in health professions education (HPE) have reported on the role of philosophical positions in their practice. We specifically sought to understand and infer how knowledge users might locate and use that information. In particular, we focused on the assessment of “intrinsic roles” (e.g., communication, professionalism, leadership) (Sherbino et al., 2011), for which many scholars have emphasized the need for alternative assessment activities without an equal emphasis on the roots intrinsic roles have in the philosophies of humanities and social sciences (Kuper & D’Eon, 2011; Kuper et al., 2017). Assuming one can integrate assessment of these roles alongside medical expertise, for example, produces potential logical flaws when viewed from a philosophically informed assessment perspective. 

 

방법들
Methods

스터디 개요
Study overview

1단계에서는, 본질적 역할(예: 전문직업성)을 (명시적 초점 또는 전반적 역량 평가의 통합 구성요소로) 포함하는 성과 기반 평가 문헌의 최근 대표 표본(포괄적이지는 않지만)을 식별하였다. 3년에 걸쳐 표본을 추출하기로 선택함에 있어, 우리는 "최신" 문헌의 표본을 추출하기 보다는 대표적인 표본을 선택하여 우리의 원칙에 따라 조사하는 것을 목표로 했다. 이 접근법은 폭보다 분석의 깊이를 강조하는 지식 통합에 대한 서술적이고 비판적인 해석론적 견해와 일치한다(Greenhalgh 등, 2018; Grant 등, 2009; Dixon-Woods 등, 2005).
Phase 1 involved identifying a recent and representative (but not comprehensive) sample of performance-based assessment literature that included intrinsic roles (e.g., professionalism) as an explicit focus or as an integrated component of an overall competence assessment. In choosing to sample over a 3-year period, we aimed to select a representative sample and probe it with our principle, rather than to sample the literature such that were “up to date.” This approach aligns with the narrative, critical interpretivist view of knowledge synthesis, which emphasizes depth of analysis over breadth (Greenhalgh et al., 2018; Grant et al., 2009; Dixon-Woods et al., 2005).

2단계는, 정성적 내용 분석을 사용하여 (가능한 경우) 각 논문 저자들의 연구 선택을 뒷받침하는 철학적 입장을 설명하는 발췌를 추출하였다. 성과 기반 평가의 세 가지 주요 기능에 대해 이 작업을 수행했습니다.

  • (1) 구성의 특성 및 역량
  • (2) 평가 활동의 구조 및 전달, 특히 평가자의 역할
  • (3) 정당화 및 검증 방법

Using qualitative content analysis, Phase 2 involved extracting excerpts (where possible) describing the philosophical positions of each paper’s authors that would have underpinned their research choices. We did this for three key features of performance-based assessment:

  • (1) the nature of constructs and competence,
  • (2) structure and delivery of assessment activities, particularly the role of raters, and
  • (3) methods of justification and validation.

저자의 철학적 입장을 직접적으로 선언한 본문의 발췌가 없을 때, 우리는 좀 더 간접적인 신호(예: 참고문헌, 특징들이 어떻게 운용되었는가)를 사용하여 잠재적인 철학적 입장을 추론하려고 시도했다. 마지막으로, 이러한 기능에 대한 호환성 문제를 관찰, 해석 및 설명하는 것을 목표로 했다.

In the absence of excerpts of text that directly declared authors’ philosophical positions, we attempted to infer potential philosophical positions using more indirect signals (e.g., references, how features were operationalized). Finally, we aimed to observe, interpret, and describe any issues of compatibility across those features.

이 정보를 추출하면서, 우리는 지식 사용자와 연구자로서, 우리 자신도 연구 목표를 해결하는 데 필요한 데이터를 도출하기 위해 고군분투한다는 것을 깨달았다. 특히, 우리는 저자들의 철학적인 입장에 대해 상당히 추론에 의존했다. 따라서 다음과 같은 두 가지 분석 및 해석 수준에 따라 결과를 보고합니다.

  • 레벨 1—포함된 간행물에 직접 보고되는 평가의 특징과 관련된 우리의 관찰 사항
  • 레벨 2—내재적 역할에 대한 성과 기반 평가에 대한 보고서에서 제안된 호환성 원칙과 관련된 철학적 입장 상태에 대한 우리의 관찰에 대한 비판적 서술 요약.

In extracting this information, we realized that even as informed knowledge users and researchers, we struggled to elicit the necessary data to address our research aims. Specifically, we relied on a high degree of inference about many of the authors’ philosophical positions. As such, we report our results according to two levels of analysis and interpretation:

  • level 1—our observations related to the features of assessment that are directly reported in the included publications; and
  • level 2—a critical narrative summary of our observations regarding the state of philosophical positions, as they relate to our proposed compatibility principle, in reports on performance-based assessments of intrinsic roles.

연구 접근법
Study approach

검토자("지식 사용자")에 대한 참고 사항
Notes on reviewers (“knowledge users”)

우리 팀은 다양한 철학적 위치의 역할과 기능에 대한 철저한 이해를 가진 교육, 평가, 인문, 사회과학 연구자들을 포함했다. 우리는 다양한 학문적 배경을 가진 구성원들로 구성된 연구팀을 만들었고, 그들 자신의 독립적인 연구 프로그램 내에서 다양한 철학적 위치에 걸쳐 있었다. 평가에 대한 우리의 전문지식은 실무지식 보유에서 해당 분야의 선도적인 연구 프로그램에 이르기까지 다양했다.

Our team included education, assessment, humanities, and social sciences researchers with a thorough understanding of the role and function of various philosophical positions. We created a research team with members from diverse disciplinary backgrounds and that spanned a range of philosophical positions within their own independent research programs. Our expertise in assessment varied from having a working knowledge to leading programs of research in the domain.

1단계—검토를 위한 평가 문서의 대표적인 샘플 설정
Phase 1—establishing a representative sample of assessment articles for review

저널 선정 및 기사 식별
Journal selection and article identification


우리는 HPE의 평가 문헌의 최근 대표 샘플을 다음과 같이 식별함으로써 시작했다.
We began by identifying a recent and representative sample of assessment literature in HPE by:

1. 2017년 저널 인용 보고서의 "교육, 과학 분야"에 열거된 의료/보건 직업 교육 분야의 상위 저널을 식별(2018년 아직 사용할 수 없음).
1.
Identifying top journals in medical/health professions education listed under “Education, Scientific Disciplines” of the Journal Citation Reports for the year of 2017 (2018 was not yet available).

2. 저널 영향 인자의 조합에 기초하여 3개의 저널을 선택하고 관심 주제(즉, HPE의 평가)를 표현한다.
2.
Selecting three journals based on a combination of journal impact factor and representing the topic of interest (i.e., assessment in HPE).

3. 평가문헌의 대표적인 표본으로 2016~2018년 연구논문 선정(학술지의 목차로 결정하고 Web of Science를 사용하여 교차 점검) 그런 다음 이러한 문서는 포함 기준과 분석을 검토하기 위해 EPPI-리뷰어 소프트웨어로 가져오게 된다.
3.
Selecting research articles from 2016–2018 (as determined by the journal’s table of contents and cross-checked using Web of Science) in each journal as a representative sample of assessment literature. These articles were then imported into EPPI-Reviewer software for review of inclusion criteria and analysis (https://eppi.ioe.ac.uk/EPPIReviewer-Web/home).

 

심사: 기사 추상적 검토 및 포함 기준
Screening: article abstract review and inclusion criteria

두 명의 팀원이 각각의 제목과 개요를 독립적으로 검토했다. 불일치를 해결하기 위해 쌍이 충족되었으며, 주 조사자(WT)에 의해 지속적인 불일치가 해결되었습니다. 제목과 추상적인 내용을 포함하려면 다음을 수행해야 합니다.

Two team members independently reviewed each title and abstract. Pairs met to resolve discrepancies, with persistent disagreements resolved by the principal investigator (WT). To be included, the title and abstract needed to:

1.평가에 관한 1차 연구 또는 프로그램 평가에 관한 보고서
1.
Report on primary research or program evaluation on assessment;

2.새로운 경험적 작업(즉, 역량 평가와 관련된 모든 종류의 새로운 데이터를 생성하려는 시도)을 설명한다.
2.
Describe new empirical work (i.e., attempt to generate new data of any kind related to assessment of competence);

3.역량의 구성/정의의 일부 또는 독점적으로 하나 이상의 고유 역할에 대한 평가를 포함합니다. 우리는 검토자를 CanMEDs(Frank et al., 2015) 및 ACGME(Accreditation Council for Graduate Medical Education) 프레임워크(Holmboe et al., 2016)를 사용하는 고유 역할의 예에 초점을 맞췄지만 이러한 프레임워크에 국한하지는 않았다.
3.
Include assessment of one or more intrinsic roles, exclusively or as part of the construct/definition of competence. We oriented reviewers to examples of intrinsic roles using the CanMEDS (Frank et al., 2015) and Accreditation Council for Graduate Medical Education (ACGME) frameworks (Holmboe et al., 2016) but did not limit ourselves to those frameworks.

4.외부 관찰자가 추론 기반 판단을 해야 하는 모든 유형의 시뮬레이션 또는 업무 기반 성과 기반 활동을 사용하여 학습자의 평가를 포함한다.
4.
Include assessment of learners using any type of simulation or work-based performance-based activity that required external observers making inference-based judgments.

 

2단계—데이터 추출 및 분석: 저자의 철학적인 위치에 존재 및 호환성
Phase 2—data extraction and analysis: presence of and compatibility in authors’ philosophical positions

철학적 입장을 민감하게 만드는 것에 대한 참고사항
Notes on sensitizing philosophical positions

데이터 추출을 지원하기 위해, 우리는 평가 맥락에 적용할 두 가지 광범위한 철학적 입장에 대한 상세한 설명을 가진 검토자를 준비했다. 사후 긍정주의/객관주의 및 구성주의/해석주의 (타바레스 외, 2019). 현존하는 문헌에서 학자들은 이 두 가지 패러다임 중 하나를 다른 패러다임으로 대체하거나 둘 모두를 포함시킬 것을 주장해왔다(Govaerts & van der Vleuten, 2013; Pearce, 2020).

  • 우리는 [후기 실증주의/객관주의]를 [측정 및 심리측정학과 밀접하게 align되어서, 완전히 접근할 수는 없고 어느 정도의 오류가 있기는 하지만 잠재하고 발견 가능한 객관적 진실이 있다는 입장]으로 보았다. 이 위치 내에서 평가 활동은 종종 정량화와 오류 발생 원인을 완화시키기 위한 노력(예: 상황 특수성을 최소화하기 위한 샘플링, 평가자 오류를 줄이기 위한 훈련)을 포함한다. 정당화 전략은 일반적으로 통계적입니다(예: 평가자간 신뢰성, 일반화 이론, 상관 관계).
  • 우리는 [구성주의/해석주의를 주어진 맥락에서 역량이 수행의 해석으로만 이해된다는 개념]과 관련이 있다고 여겼다. 즉, 객관적인 진실은 없는 것이다. 구인(예: 역량, 전문직업성)은 주관적이며 주어진 시점에서 다양한 해석에 개방적이다. 의미는 평가자-학습자 상호작용에서 구성되며 특정 시간의 환경 및 사회적 맥락에 의해 영향을 받는다. 정당성에는 질적 연구의 엄격함(예: 삼각 측량, 포화)과 일치하는 전략이 포함된다.

To support data extraction, we prepared reviewers with a detailed description of two broad philosophical positions: post-positivism/objectivism and constructivism/interpretivism, applied to assessment contexts (per Tavares et al., 2019). In the extant literature, scholars have advocated for replacing one of these two paradigms with the other, or the inclusion of both (Govaerts & van der Vleuten, 2013; Pearce, 2020).

  • We considered post-positivism/objectivism as closely aligned with measurement and psychometrics, and the position that there is an objective truth that is latent and discoverable, although not fully accessible and with some degree of error (Borsboom, 2005; Crotty, 1998). Within this position, assessment activities often involve quantification and efforts to mitigate sources of error (e.g., sampling to minimize context specificity, training to reduce rater error). Justification strategies are generally statistical (e.g., inter-rater reliability, generalizability theory, correlations).
  • We considered constructivism/interpretivism in assessment to be associated with the notion that competence is only understood as an interpretation of performance in a given context; there is no objective truth (Borsboom, 2005; Crotty, 1998). That is, constructs (e.g., competence, professionalism) are subjective and open to multiple diverse interpretations in a given point in time. Meaning is constructed in the assessor–learner interaction and influenced by the environment and the social context of a particular time. Justifications often include strategies consistent with rigor in qualitative research (e.g., triangulation, saturation).

이러한 입장에 더하여, 우리는 검토자들이 다른 철학적 입장과 연관될 수 있는 신호에 개방될 수 있도록 허용하고 장려했습니다. 우리는 또한 방법과 관련된 중립성과 광범위한 일반화 문제에 민감했다. 즉, 텍스트 기반 데이터, 광범위한 샘플링 및 양적 또는 질적 방법의 사용이 둘 이상의 철학적인 위치에 적용될 수 있음을 인식했다. 우리는 저자들이 연구를 수행하기 위해 사용하는 연구 방법보다는 기사에서 설명한 평가 기능에 초점을 맞췄다.

In addition to these positions, we allowed and encouraged reviewers to be open to signals that might be associated with other philosophical positions. We were also sensitive to issues of neutrality and broad generalizations related to methods. That is, we recognized that text-based data, broad sampling, and the use of quantitative or qualitative methods, for example, could be applied to more than one philosophical position. We focused on assessment features as described in the articles, rather than on the research methods used by the authors to conduct their studies.

데이터 해석 및 추출
Data interpretation and extraction

2단계에서는 4명의 팀원이 짝을 이루어 각 기사의 전문을 검토했다(WT와 PR; RB와 KH). 우리는 자신의 독립적인 연구 프로그램에서 서로 다른 철학적인 입장에 맞는 팀원들을 의도적으로 일치시켰다. 데이터 추출 및 콘텐츠 분석 프로세스가 동시에 발생하여 다음과 같은 작업이 수반되었습니다.

In phase two, four team members worked in pairs (WT and PR; RB and KH) to review the full text of each article. We purposefully matched team members who align with different philosophical positions in their own independent research programs. The data extraction and content analysis processes occurred simultaneously and involved:

1. 본문 전체를 읽고, 위에 기술한 포함 기준을 적용한다.
1.
Reading the full texts and applying the inclusion criteria described above.

2. 평가의 세 가지 특징 파악한다: 이 세 가지 특징은 평가와의 관련성 및 철학적 입장과 관련된 가능한 가변성 때문에  선택했습니다. 

  • (a) 포함된 구인 및 역량의 정의/개념화, 
  • (b) 평가 활동, 특히 관찰자의 역할, 그리고 
  • (c) 신뢰도 또는 정당성 전략. 

2.Identifying three features of assessment:

  • (a) definition/conceptualization of included constructs and/or competence;
  • (b) assessment activities, specifically the role of the observer, and
  • (c) trustworthiness or justification strategies.

We selected these three features because of their relevance to assessment, and the possible variability related to the philosophical positions informing each.

3. 저자가 이 세 가지 특징 및/또는 기본 입장을 추론하는 데 사용될 수 있는 진술과 관련된 철학적 입장을 직접적으로 나타내는 진술을 추출한다. 우리는 검토자를 가정의 지표indicators of assumptions로 민감화 했다(위에서 설명한 바와 같이). 우리의 접근법은 직접적인 인용문을 사용하려는 시도에서 시작되었지만, 철학적 입장에 대한 보고가 우리의 연구 샘플에서 거의 완전히 빠져있었기 때문에 해석적이 되었다. 따라서 각 구성원은 분석을 위한 평가의 각 특징에 대한 의견(즉, 직접 인용, 해석 및 추론)을 제공하였다.
3.
Extracting statements that either directly indicated the authors philosophical position related to these three features and/or statements that could be used to infer underlying positions. We sensitized reviewers with indicators of assumptions (as described above). Our approach began with an attempt to use direct quotes, but became interpretive because reporting of philosophical positions was almost entirely absent in our sample of studies. Therefore, each member provided comments (i.e., direct quotes, interpretations, and inferences) for each feature of assessment for analysis.

4.각 특징에 대해 작성한 데이터와 메모를 귀납적 정성적 설명을 사용하여 탐색했습니다(Sandelowski, 2000, 2010). 이것은 의도적으로 개별 본문에서 물러나 우리의 연구 문제와 관련된 문헌에 대한 우리의 관찰의 요약을 제공하기 위한 것이었다.
4.
The data and notes made for each feature were then explored using inductive qualitative description (Sandelowski, 2000, 2010). This was to intentionally step back from the individual texts and provide a summary of our observations of the literature related to our study question.

5.우리 연구팀은 자주, 반복적으로 만나서 긴장, 어려움, 관찰 및 데이터 수집 프로세스의 필요한 개선 사항 및 데이터 역할을 문서화하고 해결하고자 했다.

5.Our research team met frequently and iteratively to discuss and document tensions, difficulties, observations and where necessary refinements to our data collection process and struggles which we documented and also served as data.


우리는 연구나 연구 설계를 알리는 위치보다는 평가 특징을 알려주는 철학적 위치에 주의를 집중했다. 그러나 이러한 위치가 중복될 수 있다는 것을 인정했다. 또한 포함된 연구가 항상 우리가 추구하는 방식으로 평가 프로그램을 완전히 설명하지는 않을 것으로 예상했습니다. 우리는 각 연구에서 평가의 세 가지 특징에서 분명한 위치성을 관찰한 다음 연구 내 적합성에 대한 관찰과 해석에 초점을 맞췄다.
We focused our attention on the philosophical positions informing the assessment features of interest, rather than on the positions informing the research or study designs; however, we acknowledged that these could overlap. We also expected that included studies would not always fully describe assessment programs in the ways we sought. We concentrated on observing the positionality evident in the three features of assessments in each study, then on our observations and interpretations of compatibility within the studies.

 

결과.
Results

문헌 식별
Article identification

2016년부터 2018년까지 학술지 Academic Medicine (C) = 14,420, JIF(Journal Impact Factor) = 4.8, 의학교육(C = 9,420, JIF = 4.4), 보건과학의 진보(C = 2,341, JIF 2.57 적용 기준), 두 명의 독립 연구자의 제목과 추상적 심사를 거쳐 총 37개, 14개, 22개 논문(N = 73)이 전체 텍스트 검토를 위해 포함되었다. 전체 텍스트 심사 후, 전체 분석(학술 의학(n = 15), 의학 교육(n = 5), 보건 과학 교육의 진보(n = 12)에 32개의 논문이 포함되었다. 포함된 연구 특성은 표 2에 설명되어 있다.

From 2016 to 2018 in the journals Academic Medicine (Citations (C) = 14,301, Journal Impact Factor (JIF) = 4.8), Medical Education (C = 9,440, JIF = 4.4), and Advances in Health Sciences Education (C = 2,341, JIF 2.57), application of our criteria led to inclusion of 507/1435, 218/751, and 168/233 papers, respectively (N = 893/2419). After title and abstract screening by two independent researchers, a total of 37, 14, and 22 articles (N = 73) were included for full text review. After full text screening, 32 papers were included for full analysis (Academic Medicine (n = 15), Medical Education (n = 5), and Advances in Health Sciences Education (n = 12)). Included study characteristics are described in Table 2.

 

레벨 1—평가 기능과 관련된 관찰 사항
Level 1—observations related to features of assessment

우리는 다음을 이해하고자 했다. 

  • (A) 저자들은 자신의 철학적 입장을 어떻게 보고했는가?
  • (B) 철학적 입장이 평가의 특징(즉, 구성/능력, 평가 활동, 정당성)에 어떻게 inform했는가?
  • (C) 철학적 입장과 관련된 기본적인 가정과 약속이 평가 특징 전반에 걸쳐 양립할 수 있는가?

We aimed to understand

  • (A) how authors reported on their philosophical positions,
  • (B) how features of assessment (i.e., constructs/competence, assessment activities, justification) were informed by these philosophical positions, and
  • (C) whether the underlying assumptions and commitments associated with the authors’ philosophical positions were compatible across assessment features.

 

모호하거나 불분명하거나 보고되지 않은 철학적 위치
Philosophical positions as vague, unclear, or not reported

목표 "A"에 관하여, 우리는 끊임없이 [저자의 철학적인 입장에 대한 데이터를 추출할 수 없다는 것]을 확인했다. 철학적인 위치에 의해 평가 특징이 어떻게 전달되었는지에 대한 저자의 설명은 모호하거나 불분명하거나 보고되지 않았기 때문에 각 특징에 대한 높은 수준의 해석이나 추론이 필요했다. 이러한 해석의 필요성으로 인해 우리는 여러 팀 회의를 소집하여 저자의 잠재적 입장의 위치에 대해 논의하고 논의하게 되었습니다. 특히, 저자의 결정이 둘 이상의 철학적 입장과 연관될 수 있으나, 라벨이 부착되지 않거나 정의되지 않은 경우에 어려웠음을 확인했다. 우리는 이 발견의 일관성이 그 자체로 중요한 발견이라고 판단했고, 우리의 샘플을 넓히는 것이 우리의 연구 질문에 대한 추가적인 통찰력을 제공하지 못할 것이라고 결정했다.

For aim “A,” we found that we could not consistently extract data about authors’ philosophical positions. Authors’ descriptions on how assessment features were informed by philosophical positions were either vague, unclear, or not reported, and thus required a high degree of interpretation or inference for each feature. (e.g., Biagioli et al., 2017; DeMuth et al., 2018; Gingerich et al., 2017; Ginsburg et al., 2017; Hauer et al., 2018; Li et al., 2017; Martin et al., 2018; Mink et al., 2018; Naidoo et al., 2017; Naumann et al., 2016; Weingart et al., 2018)). This need to interpret led us to call multiple team meetings to discuss and debate the positionality of authors’ potential positions. We noted particular difficulty when authors’ decisions could be associated with more than one philosophical position, yet went unlabeled or undefined (e.g., Ginsburg et al., 2017; Hauer et al., 2018; Naidoo et al., 2017; Naumann et al., 2016). We determined that the consistency of this finding was an important finding in itself, and decided that broadening our sample would likely not provide additional insight toward our research question.

언급되지 않은 것을 보여주기 위해 발췌본을 쉽게 추출할 수 없다는 점을 감안할 때, [부재를 입증하는 것]은 어렵지만, 우리는 저자의 철학적 입장이 명시되지 않았고 여러 가지 방법으로 해석될 수 있었던 아래의 세 가지 예를 제공하고자 한다. 이러한 예들을 공유하는 우리의 의도는 이러한 연구의 방법, 결과 또는 전반적인 품질을 비판하기 위한 것이 아니라, 위치성이 얼마나 암묵적이거나 유추적인 결과들이 다양한 해석에 영향을 미칠 수 있는지를 보여주기 위한 것이다. 
While it is difficult to demonstrate such absences, (Paton et al., 2020) given that we cannot easily pull excerpts to show what was not said, we have provided three examples below in which authors’ philosophical positioning were not stated and could have been interpreted in multiple ways. Our intention in sharing these examples is not to criticize the methods, results, or overall quality of these studies, but rather to show how implicit or inferred positionality may leave the implications of findings open to varied interpretations. 

  • 사례 1에서, 저자들은 그들의 철학적인 위치에 대한 명확한 진술 없이 의사소통과 데이터 관리 기술을 평가하기 위해 OSCE를 탐구했다. 예를 들어, 주관적인 전략을 사용하여 의사 소통과 환자와의 관계 기술을 평가하기 위해 직접적인 관찰을 사용한 결과, 처음에는 구성주의자/해석주의자 입장을 취하는 듯 보였다. 그러나 다음 인용구를 비롯하여, (수치 등급 사용, 격리된 항목 강조(예: 간헐적으로 눈 마주침 유지) 및 정량화를 요구하는 것처럼 보이는) 다른 특징들은 좀 더 후기실증주의의 입장과 일치하는 것처럼 추론하게 했다: "환자의 알레르기를 발견하지 못한 것은 명백한 오류이다. 다른 항목은 환자 결과와 관련된 한 객관적으로 측정하기가 더 어렵다. 예를 들어, 간헐적인 눈 접촉의 양을 결정하는 것은 환자와의 친밀감을 형성하는 데 어렵다." 우리 팀은 객관성을 추구하기 위해 내재적 역할의 분해와 정량화가 평가의 현장 수준 표준과 연관되어 있다고 무심코 가정할 수 있는지, 그리고 그것이 작가들이 후기실증주의적 관점에서 작업했다는 것을 의미하는지 궁금했다.
    In Example 1, authors explored an OSCE to assess communication and data management skills, with no explicit statement of their philosophical positioning. For instance, their use of direct observations to assess communication and patient rapport skills using subjective strategies led us to assume at first a constructivist/interpretivist position. However, other features, such as their use of numeric ratings, their emphasis on isolated items (e.g., maintined eye contact intermittently), and the following quote seemingly calling for for quantification, had us inferring something more aligned with a more post-positivist position: “Failing to discover a patient’s allergy is clearly an error. Other items are more difficult to measure objectively insofar as they relate to patient outcomes. For example, determining how much intermittent eye contact is adequate to establish patient rapport is difficult.” Our team was left wondering if we might be inadvertently assuming the breakdown and quantification of intrinsic roles in the pursuit of objectivity was linked to the field-level norm in assessment, and if it meant authors’ had worked from a post-positivist view.

 

  • 예 2에서 저자들은 자신의 입장을 밝히지 않고 다양한 평가 도구의 예측적 가치를 탐구했다. 저자들은 양적 및 질적 데이터를 모두 중시하는 것으로 보이며 환자, 동료 및 감독자의 데이터 소스를 컴파일해야 할 필요성에 대해 논의했습니다. 저자들은 또한 "교육생에 대한 개인적인 경험과 태도가 등급에 영향을 미칠 것 같다"고 인정했지만 (해당하는 경우) 평가자를 교정하거나 훈련시키거나 어떤 형태의 표준화도 확립하는 것을 목표로 하지 않았다. 그러한 결정은 다양하고 주관적인 성과 관점이 평가되어 독자들이 관련 분석 접근법의 제시를 기대하게 하는 구성주의적 입장을 시사할 수 있다. 그러나 저자들은 신뢰도를 사용하여 데이터 소스의 양적 특징(질적 데이터 제거)에 초점을 맞추고 "예측 유효성"을 탐구하기 위해 연관성 및 회귀 분석을 사용하여 다양성을 조사했다. 입장을 명시적으로 밝히지 않고, 우리 팀은 저자들이 다른 방식으로 가치 있는 다양하고 주관적인 관점을 고려하는지 또는 미래 예측의 정확성이나 신뢰성을 위해 그러한 관점을 완전히 붕괴시키는 것을 지지하는지 확신할 수 없었다.
    In Example 2, authors explored the predictive value of a variety of assessment tools without stating their position. The authors appeared to value both quantitative and qualitative data and discussed the need to compile the data sources from patients, colleagues, and supervisors. The authors also recognized “personal experiences and attitudes toward trainees will likely influence ratings,” yet did not aim to calibrate or train assessors (where applicable), nor to establish any form of standardization. Such decisions might suggest a constructivist position wherein diverse, subjective viewpoints of performance are valued leading readers to expect presentation of related analytical approaches. However, the authors used reliability to indicate quality of assessment instruments, focused on quantitative features of the data sources (eliminating qualitative data), and examined the diversity using measures of associations and regressions to explore “predictive validity.” Without stating a position explicitly, our team was unsure if the authors’ considered the diverse, subjective viewpoints valuable in other ways, or if they advocated fully for collapsing such viewpoints for the purposes of (presumably) accuracy or reliability of future predictions.

 

  • 사례 3에서 저자는 평가 결과를 개선하기 위해 서술 데이터를 사용하여 탐구했으며, 또한 그들의 입장을 진술하지 않았다. 저자들은 "질적 및 주관적 데이터"와 평가에서 "지평을 확장"하여 정성적 데이터를 포함하는 수치 등급을 넘어서는 가치가 있다고 주장했다. 저자들은 또한 평가에서 순전히 심리측정적 접근법에서 벗어나는 것에 대한 문헌을 인용한다. 저자들은 전공의 순위의 신뢰성과 상관관계를 포함한 서술적 논평의 가치를 분석하기 위해 통계적 접근법을 사용했는데, 이는 구성주의 오리엔테이션과 잘 정렬되지 않은 것으로 해석될 수 있다. 이 정량화 수준은 후기 실증주의적 입장을 더 많이 반영할 수 있다. 그러므로, 어떤 독자들은 질적 자료의 검토에 대한 후기실증주의적 접근법을 인식하는 반면, 다른 독자들은 그렇지 않을 수 있으며, 대신에 통계적 신뢰성이 구성주의자들이 이의를 제기할 수 있는 입장인 서술적 논평의 가치를 평가하기 위한 핵심 지표라고 해석할 수 있다.
    In Example 3, author’s explored using narrative data to improve assessment outcomes, and also did not state their positions. The authors did argue that there is value in “qualitative and subjective data” and to “expand our horizons” in assessment to go beyond numeric ratings to include qualitative data. The authors also reference an article about moving away from purely psychometric approaches in assessment. The authors then used statistical approaches to analyze the value of narrative comments including reliability of resident rankings and correlations, which may be interpretted as poorly aligned with constructivist orientatons. This level of quantification may reflect more of a post-positivist position. Therefore, some readers may recognize the post-positivist approach to examine qualitative data, whereas others may not, and may instead interpret that statistical reliability is a key metric for assessing the value of narrative comments, a stance that constructivists may contest.

우리는 이러한 예들이 현장 수준의 보고 규범을 고수하는 연구 팀을 대표한다고 제안한다(즉, 철학적 입장을 명확하게 진술하지 않음). 이러한 모습은 이 분야에서 방법론적 접근법이 넓어지고, 다른 접근법을 지지하는 철학적인 논쟁이 덜 눈에 띄거나 사용될 수 있는 시대에 생겨났다고 볼 수 있다. 우리는 다음에 대한 대표적인 모습을 보여주고자 했다.

(a) 철학적 입장이 있을 수 있었지만 보고되지 않은 경우
(b) 의도하지 않은 해석에 대한 관련 잠재력
(c) 평가 기능 간의 양립성에 대한 공정하고 불공정한 비판의 가능성.

We suggest that these examples represent research teams adhering to field-level norms of reporting (i.e., no expecctation to clearly state philosophical positions), in a time where methodological approaches have broadened, and where philosophical arguments in support of different approaches may be less visble or used. We intended to represent

  • (a) opportunities where philosophical positions could have been, but were not reported,
  • (b) the associated potential for unintended interpretations, and
  • (c) the potential for both fair and unfair criticisms about compatibility between features of assessment.

 

평가 기능 제정 방법의 차이: 가변적 위치 제시
Differences in the way assessment features are enacted: suggesting variable positionality

목표 "B"를 위해, 우리는 [평가 특징이 집행enact되는 방법]의 다양성을 관찰했다. 그러나 철학적인 위치에 대한 직접 또는 가시적인 언급이 없어서 저자의 입장을 추론하기 위해 본문의 간접 언어와 다른 신호에 의존하게 되었다. 따라서 저자들이 [평가 기능을 집행한 방법을 어떻게 보고하였는지]에 초점을 맞추게 되었으며, 이를 통해 우리는 평가 기능의 위치positionality를 추정했다. 예를 들어, 우리는 일부 저자들이 구인의 조작화를 후기 실증주의적 위치(예: 잠재적 특성 또는 속성)와 연관시켰다고 해석했다. 

For aim “B,” we observed variability in how assessment features were enacted; however, the absence of direct or visible references to philosophical positions left us relying on indirect language and other signals in the text to infer authors’ positions. This consequently led us to focus on how authors reported enacting assessment features, from which we presumed their positionality. For example, we interpreted some authors to associate their operationalization of constructs with post-positivist positions (e.g., as latent traits or attributes) (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Cameron et al., 2017; DeMuth et al., 2018; Hicks et al., 2016; Lee et al., 2016; Li et al., 20172018; Onishi et al., 2018; Park et al., 20162017; Ross et al., 2017).

  • 구성주의/해석주의자들의 프레이밍을 활용하는 저자들의 수는 더 적었다.
  • 우리는 [관찰자를 객관적이지만 실수할 수 있고 상호 교환 가능하며 훈련을 통해 완화될 수 있는 오류에 기여하는 사람]으로 간주한 사례에 주목했다. 
  • 이와는 대조적으로, 어떤 연구자들은 관찰자의 주관성을 중시하는 것으로 보였고, 관찰자 사이의 변화를 의미 있는 것으로 위치시켰다.
  • 타당화validation에 대한 일반적인 접근법에는 통계적 접근법(예: 일반성, 신뢰성, 평가자 효과에 대한 통제)의 활용이 포함되었다.
  • 소수의 저자가 정성적 형태의 정당성(예: 신뢰성, 회원 확인, 이전 가능성)을 사용했다

 

  • Fewer authors appeared to leverage constructivist/interpretivist framings (e.g., Christensen et al., 2018; Pool et al., 2018).
  • We noted instances in which observers were considered objective, but fallible, interchangeable and as contributing error that could be mitigated through training (e.g., Biagioli et al., 2017; Cameron et al., 2017; Dory et al., 2018; Naumann et al., 2016; Park et al., , 20162017; Roberts et al., 2017ab; Turner et al., 2017; Weingart et al., 2018).
  • By contrast, others appeared to value observer subjectivity, and positioned the variation between observers as meaningful (e.g., Chahine et al., 2016; Christensen et al., 2018; Pool et al., 2018).
  • A common approach to validation included leveraging statistical approaches (e.g., generalizability, reliability, controlling for rater effects) (e.g., Cameron et al., 2017; Chahine et al., 2016; DeMuth et al., 2018; Dory et al., 2018; Li et al., 2018; Mink et al., 2018; Onishi et al., 2018; Park et al., , 20162017; Roberts et al., 2017ab).
  • Fewer authors used qualitative forms of justification (e.g., credibility, member-checking, transferability) (e.g., Christensen et al., 2018; Pool et al., 2018).

일부 지표를 활용했지만 평가 방법이 둘 이상의 위치와 연관될 수 있기 때문에 기본적인 위치만 추론할 수 있었다. 따라서, 우리는 목표 "C"에 대한 의도된 분석을 완료할 수 없었다. 
While we leveraged some indicators, we could only infer underlying positions, in part because assessment methods can be associated with more than one position. As such, we could not complete our intended analysis for aim “C.” 

 

레벨 2-호환성 평가 시 해석 및 결과 요약
Level 2—summarizing our interpretations and findings when attempting to appraise compatibility

분석 레벨 1 동안 직면했던 도전은 상당히 놀랍고 놀라웠기 때문에 많은 팀 토론과 토론을 촉발시켰다. 우리는 작가들의 철학적 입장을 해석하기 위해 상당한 시간을 보냈다. 토의하고, 토론하고, 경쟁하고, 우리 자신과 서로의 해석에 의문을 품었다. 두 논문(예: 사례)의 철학적 위치를 다르게 해석하는 연구팀의 다른 구성원의 대표적인 예가 보충 파일로 포함되어 있다.

The challenges faced during Level 1 of analysis were considerable and surprising, such that they prompted a great deal of team discussion and debate. We spent substantial time attempting to interpret authors’ philosophical positions, then discussing, debating, contesting, and questioning our own and each other’s interpretations. Representative examples of different members of the research team interpreting the philosophical positioning of two papers (i.e., cases) differently are included as a supplementary file.

시간이 지남에 따라, 우리는 그러한 토론들이 그들만의 독특한 결과를 제공한다고 판단했다. 다음은 원본 연구에서 규칙적이고 명시적인 보고가 없는 상황에서 철학적 입장을 해석하는 우리의 경험을 서술적으로 종합한 것이다.
With time, we judged that such discussions offered their own unique findings. The following represents a narrative synthesis of our experiences interpreting philosophical positions in the absence of regular, explicit reporting in the original studies:

1.작가의 철학적 입장과 가정은 함축적이다. 

저자가 철학적인 입장을 명확하고 명시적으로 보고하지 않을 때, 지식 사용자는 다양한 평가 기능과 관련된 의미를 추론하거나 다양하게 해석해야 한다. 예를 들어, 일부 저자들은 내적 역할의 구성을 단독으로 정의하거나 다른 차원들과 결합하지 않았다. 저자들은 관찰자의 역할에 대해 논의했지만, 때때로 저자들의 철학적 위치에 대한 우리의 추론에 자신감을 남길 만큼 충분한 세부 사항이 없었다. 또한, 정당화 과정에서, 저자들은 평가의 다른 특징과 짝을 이루는 것에 대해 어느 정도 다른 철학적 입장(예: 통계적 주장, 엄격함의 질적 개념과 일치하는 접근법)을 제시한 방법이나 접근법을 사용했다. 하나의 방법들이 어떤 철학적 입장과 연관될 수 있는 여러 가지 방법이 있음을 고려할 때, 구별과 해석이 항상 명확한 것은 아니다.

1.
Author’s philosophical positions and assumptions as implicit When authors did not report their philosophical positions clearly and explicitly, knowledge users are left to infer or variably interpret meaning associated with various assessment features. For instance, some authors did not define the construct of intrinsic roles alone or in combination with other dimensions (e.g., Chahine et al., 2016; DeMuth et al., 2018; Dory et al., 2018; Ginsburg et al., 2017; Li et al., 2017; Naidoo et al., 2017)). Authors discussed the role of the observer, but at times without enough detail to leave us confident in our inferences about the authors’ philosophical positioning (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Cameron et al., 2017; DeMuth et al., 2018; Martin et al., 2018; Naidoo et al., 2017; O’Brien et al., 2016; Weingart et al., 2018)). Further, in generating justifications authors used methods or approaches that suggested, to some extent, different philosophical positions (e.g., statistical arguments, approaches consistent with qualitative notions of rigor) for which pairings with other features of assessment could be variably interpreted. Given how methods could be associated with more than one philosophical position, distinctions and interpretations are not always clear.

2. 이론을 실천에 적용하는 것은 철학적이기보다는 방법론적인 것으로 보인다. 

이러한 연구들을 면밀히 검토한 우리의 경험은, 이론에서부터 실천으로 옮겨가는 것이 [다양한 철학적 입장과 관련된 가정과 약속]에 의해 명확히 인도되기 보다는 [주로 방법론적이었다는 것]을 시사했다. 위에서 언급한 바와 같이, 우리는 방법론적 선택의 변동성을 관찰했다. 많은 예에서, 저자들은 그들의 연구에 심리측정적 원리, 측정 개념, 그리고 통계적 규약을 사용했다. 이와는 대조적으로, 우리는 질적 패러다임과 관련된 방법들에 대해서도 언급했다. 그러나 [평가 문제를 어떻게 조사해야하는지] 또는 [철학적 위치에 의해 해결책이 어떻게 형성되는지]에 관련된 디테일은 훨씬 드물었다. 그리고, 대부분의 연구는 다른 철학적 변화에 찬성하는 개념적 주장이 완전히 받아들여지지 않았다는 것을 암시하면서 심리측정, 측정, 그리고 통계 전략을 고수하는 것으로 보였다.

2.Theory to practice shifts appear to be more methodological than philosophical Our experience closely reviewing these studies suggested that theory to practice shifts has been mainly methodological, rather than explicitly guided by assumptions and commitments associated with various philosophical position. As noted above, we observed variability in methodological choices. In many instances, authors used psychometric principles, measurement concepts, and statistical conventions in their work (e.g., Cameron et al., 2017; DeMuth et al., 2018; Dore et al., 2017; Hauer et al., 2018; Li et al., 2017, 2018; Naidoo et al., 2017; Park et al., 2016, 2017). By contrast, we also noted methods associated with qualitative paradigms (e.g., Pool et al., 2018), though comparatively fewer. However, how assessment problems are interrogated or details related to how solutions are shaped by philosophical positions was much less common. And, the majority of studies appeared to adhere to psychometric, measurement, and statistical strategies, suggesting that conceptual arguments in favor of different philosophical shifts have not been fully taken up.

3.철학적 경계가 불분명해 보인다 

우리는 일부 연구는 후기 실증주의적이었고, 일부 연구는 구성주의적이라고 볼 수 있었지만, 완전히 둘 다로 아니다라고 볼 수는 없다는 것을 발견했다. 분석에서 철학적인 입장으로서 후기실증주의/객관주의와 구성주의/해석주의를 민감하게 만드는 우리의 선택은 잠재적으로 잘못된 이분법을 만들었을 수 있다. 그러나, 우리는 비록 후기실증주의가 더 널리 나타나기는 했지만, 이러한 양극화가 어느 한 쪽을 선택하는 것처럼 보이는 작가들에게서 반영된다는 것을 발견했다. 다른 철학적 입장들 (예를 들어, 현실주의, 실용주의, 철학적 다원성)은 작가의 개념적 주장과 관행을 뒷받침할 수 있다. 이러한 다양한 입장에 대한 명시적인 주의, 논의 및 보고 없이는 경계가 불분명하다.

3.Philosophical boundaries seem to be unclear We found that some articles could be viewed as more constructivist than post-positivist (or vice versa), but also not fully as either (e.g., Pool et al., 2018). Our choice of sensitizing post-positivism/objectivism and constructivism/interpretivism as philosophical positions in our analysis potentially may have created a false dichotomy. However, we found that this polarization was mirrored in authors appearing to choose one or the other, although post-positivism appeared more prevalent. Other philosophical positions (e.g., realism, pragmatism, philosophical plurality) may underlie author’s conceptual arguments and practices. Without explicit attention to, discussion and reporting of these various positions, boundaries are unclear.

4. 내재적 역할intrinsic role이 보다 광범위한expansive 평가 활동에 내재됨에 따라, 철학적 영향이 더욱 불분명해졌다.

많은 저자들은 평가에서 내재적 역할을 의료 전문가 차원 곁으로 embedding하여, 분산시키는decentralize 경향이 있었다. 우리는 다른 역할과의 혼합을 통해 증거가 생성되었을 때 내재적 역할에 대한 주장을 할 수 없다고 판단했다. 저자가 내재적 역할을 내장하지emded 않고, 대신 중심적 구인central construct으로 만든 연구는 저자의 철학적 입장이 선택된 구인(예: 전문직업성)를 평가하는 방법에 대한 그들의 결정에 어떻게 영향을 미칠 수 있는지에 대한 보다 직접적인 평가를 가능하게 했다. 그러나 여기서도 어려움은 여전했다.

4.Intrinsic roles have been embedded in more expansive assessment activities, making philosophical influences unclear Many authors tended to decentralize intrinsic roles in assessment, embedding them alongside medical expert dimensions (e.g., Cameron et al., 2017; Chahine et al., 2016; DeMuth et al., 2018; Gingerich et al., 2017; Ginsburg et al., 2017; Hicks et al., 2016; Li et al., 2017; Naidoo et al., 2017; Naumann et al., 2016; Onishi et al., 2018; Park et al., 2016, 2017; Ross et al., 2017; Tavares et al., 2018; Weingart et al., 2018; Wood et al., 2017). We determined that we could not make claims about intrinsic roles when evidence had been generated through a blending with other roles. Studies in which authors did not embed intrinsic roles, and instead made them the central construct (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Dory et al., 2018; Lee et al., 2016; Martin et al., 2018; Roberts et al., 2017a, b; Roberts et al., 2017a, b), permitted a more direct appraisal of how authors’ philosophical positions may have influenced their decisions about how to assess the chosen construct (e.g., professionalism). However, even here, challenges remained.

5.암묵적, 부재 및 불분명한 철학적 입장의 현재 상태는 양립성 평가를 불확실하게 만들었다. 저자들이 평가의 각 특징에 접근하는 방법에서 우리가 관찰한 변동성은 평가 과학의 최근 발전을 강조하였다. 우리는 전체적으로, HPE의 평가 과학 분야의 경우, 이러한 연구들은 우리가 평가를 더 이상 사이코메트리, 실증주의자 또는 사후 포지티비스트적 위치에 의해서만 알고 있는 활동으로 가정할 수 없다는 것을 시사한다. 이는 특히 기초적인 가정과 약속이 검토하기 어렵거나 방법이 중립성을 유지할 때 평가 특징 전반에 걸친 존재론적-원론적 쌍에 관한 문제적이거나 불확실한 주장에 대한 기회를 제공했다. 평가 문헌의 지배적인 사이코메트리 후 포지티비스트 본문을 발견했지만, 우리는 다른 평가 특징을 알려주는 위치에서 고유한 쌍에 대한 몇 가지 잠재적 표현을 주목했다(예: Chahine 등, 2016; 풀 등, 2018). 궁극적으로, 품질, 방어성 및 호환성에 대한 우리의 해석은 누가 해석하는지는 물론 해석되는 것에 달려있기 때문에 우리는 그러한 쌍에 대해 상세히 언급할 수 없다.
5.
The present state of implicit, absent, and unclear philosophical positions made compatibility appraisals uncertain The variability we observed in how authors approached each feature of assessment highlighted the recent advances in assessment science. We note that collectively, for the field of assessment science in HPE, these studies suggest that we can no longer assume assessment as an activity informed only by psychometric, positivist, or post-positivist positions. This provided an opportunity for problematic or uncertain claims regarding ontological–epistemological pairings across assessment features, particularly when underlying assumptions and commitments were difficult to examine or methods held a degree of neutrality. While we found a predominant psychometric, post-positivist body of assessment literature, we did note some potential representations of unique pairings in the positions informing different assessment features (e.g., Chahine et al., 2016; Pool et al., 2018). Ultimately, we cannot comment in detail on such pairings because our interpretations about quality, defensibility, and compatibility became variable and reliant on both who was interpreting, as well as what was being interpreted.

고찰
Discussion

의료 전문가 및 교육생의 고유 역할에 대한 성과 기반 평가를 설계하고 보고할 때 철학적인 입장의 역할과 사용에 대해 알아봤습니다. 우리는 각 연구에 포함된 다양한 평가 기능에 걸쳐 저자의 철학적 입장과 관련된 기본적인 가정이 양립할 수 있는지 여부를 검토하는 것을 목표로 했다. 우리는 세 가지 주요 발견을 보고한다.

  • 첫째, 저자들은 평가의 다양한 특징과 관련된 그들의 명확한 철학적 입장을 거의 보고하지 않았는데, 이는 우리 팀이 저자들의 근본적인 가정과 관련하여 추론하거나 의미를 추정해야 한다는 것을 의미한다.
  • 둘째로, 저자들은 다양한 방법으로 평가의 특징에 접근했으며, 우리가 추론한 많은 것들은 다른 철학적 입장에 의해 알려지거나 연관될 수 있었다.
  • 셋째로, 우리는 저자의 철학적 가정 준수 또는 위반을 판단하는 데 불확실하게 남겨졌기 때문에 주요 평가 특징 간의 호환성을 판단할 수 없었다.

We explored the role and use of philosophical positions when designing and reporting on performance-based assessments of healthcare professionals’ and trainees’ intrinsic roles. We aimed to examine whether authors’ underlying assumptions associated with their philosophical positions were compatible across the various assessment features included in each study. We report three primary findings.

  • First, authors rarely reported their explicit philosophical positions related to the various features of assessment, meaning our team had to infer or assume meaning regarding authors’ underlying assumptions.
  • Second, authors approached features of assessment in variable ways, many of which we inferred could be informed by or associated with different philosophical positions.
  • Third, we were left uncertain in judging authors’ compliance with or violation of philosophical assumptions and thus could not judge compatibility across key assessment features.

평가의 선택의 폭을 넓히는 맥락에서 연구자와 평가 설계자가 계속 그들의 근본적인 철학적 입장을 묵시적으로 그리고 밝혀내는 경우, 그들은 그들의 의도, 의미, 일관성 및 방어 가능성에 대한 가변적 해석을 할 위험이 있다. 그러한 변동성은 평가 노력의 품질(예: 주어진 맥락에 대한 의미나 관심 구조에 대한 조정 방법을 명확히 하지 않고 방법에 의존하는 것)과 사용자가 보고된 결과를 어떻게 받아들이고 지원하고 구축하는지의 품질을 위협할 수 있다. 다음으로, 우리는 평가 보고, 평가 작업의 지침, 일관성 주장에 대한 함축적 의미 및 철학적 입장의 역할과 관련된 토론에서 철학적 입장의 부재를 고려한다. 우리는 어떻게 평가 작업이 철학적 입장을 명확히 하기 위해 다듬어질 수 있는지에 대한 예를 제공하고 평가 커뮤니티가 고려할 권고사항으로 끝을 맺는다.
In the context of broadening choices in assessment, if researchers and assessment designers continue to leave their underlying philosophical positions implicit and unearthed, they risk variable interpretations about their intentions, meaning, coherence, and defensibility. Such variability has the potential to threaten the quality of assessment efforts (e.g., relying on methods without being clear about their meaning for a given context or how it aligns with constructs of interest), as well as the quality of how knowledge users take up, support, and build upon reported findings. Next, we consider the absence of philosophical positions in assessment reporting, in guiding assessment work, on implications for coherence claims and on debates related to the role of philosophical positions. We provide an example of how assessment work can be refined to make philosophical positions explicit, and end with recommendations for the assessment community to consider.

말하지 않음—평가에서 철학적인 입장의 부재
The unsaid—absence of philosophical positions in assessment

"유효한 평가"라고 여겨지는 것에 대한 문제를 조사하는 것은 구조와 역량의 본질에 대한 철학적 질문으로 시작한다. 그럼에도 불구하고, 평가에 대해 보고하는 저자들은 관련 철학적 입장을 설명하지 않고 주로 평가 방법(예: 숫자 사용, 내러티브 사용)에 초점을 맞추고 있다는 것을 발견했다. 우리는 방법론적 변화를 주장하기 위해 철학적인 입장을 활용하는 저자들을 관찰했지만, (Chahine 등, 2016) 다른 것(즉, 철학적으로 정보에 입각한 가정) 없이 하나의 방법(즉, 방법)을 차지하는 것은 문제를 지나치게 단순화시킬 수 있다. 예를 들어, 저자들은 "심리학 이후의 시대"(Hodges, 2013)를 옹호하거나 그것과 관련된 과도한 수정(Pearce, 2020; Schoenherr & Hamstra, 2016)을 경고하기 보다는 먼저 그들의 철학적 입장이 구성, 역량 및 타당성에 대한 가정을 어떻게 알리는지에 초점을 맞출 수 있다. 그렇게 하면 저자가 평가 특징 전반에 걸쳐 존재론적-원론적 가정을 조정하고 지식 사용자에게 공유 이해에 필요한 기초를 제공할 가능성이 높다. 이러한 철학적 뿌리는 저자들이 한 가지 방법론적 방향이나 다른 방향을 옹호할 때 제기하는 주장 아래에 존재한다고 믿는 것이다(Govaerts et al., 2007; Ten Kate & Regehr, 2019).
Inspecting the issue of what is considered “valid assessment” begins with the philosophical question of the nature of constructs and competence (Mislevy, 2018). And yet, we found that authors reporting on assessments have focused largely on assessment methods (e.g., using numbers, using narratives), without explicating any related philosophical positions. While we did observe authors leveraging philosophical positions to argue for methodological shifts, (Chahine et al., 2016) taking up one (i.e., methods) without the other (i.e., underlying philosophically informed assumptions) may oversimplify the issue. For instance, rather than advocating for a “post-psychometric era” (Hodges, 2013) or cautioning over-corrections associated with it (Pearce, 2020; Schoenherr & Hamstra, 2016), authors might focus first on how their philosophical positions inform their assumptions about constructs, competence, and validity. Doing so will likely ensure authors align the ontological–epistemological assumptions across assessment features and provide knowledge users with the foundations necessary for a shared understanding. It is these philosophical roots that we believe exist beneath the arguments authors make when advocating for one methodological direction or another (Govaerts et al., 2007; Ten Cate & Regehr, 2019).

안내되지 않음—철학적 정보에 입각한 평가 프레임워크의 부재
The unguided—absence of philosophically informed assessment frameworks

평가 결정을 안내하는 많은 출판물들은 아직 철학적 입장의 역할을 강조하지 않는다. 공정하게 말하면, 저자(및 저널)는 이러한 부재를 암시적 가치 진술 또는 표준 관행으로 해석할 수 있다. 예를 들어 2011년 "좋은 평가를 위한 기준"은 존재론 또는 인식론에 대한 명시적 언급 없이 7가지 기준(예: 타당성, 재현성, 동등성, 타당성, 교육 효과, 촉매 효과 및 수용성)을 요약했다(Norcini 등, 2011). 이러한 누락은 기준을 시스템 프레임워크로 대체했을 때 계속되었다(Norcini 등, 2018). 또한 철학적인 입장은 HPE(유드코우스키 외, 2019), 유효성 가이드(쿡 외, 2015, 2016), 평가에서 앞을 내다볼 때 우선 순위로서 또는 역량 위원회에 대한 최근 연구(키니어 외, 2018)에서 언급되지 않는다. 이러한 관찰은 어떤 사람들에게는 철학적인 입장에 대한 관심이 필요하지 않을 수도 있음을 암시한다. 이와는 대조적으로 타당성 이론가들은 이 이슈에 주의를 기울였고(Borsboom & Markus, 2013; Borsboom 등, 2003; Kane, 2013) 시간 경과에 따라 프로그램적 평가가 어떻게 진화해왔는지를 포함한 평가의 일부 진보는 철학적인 가정에 대한 주의의 영향을 받았다(Pearce & Tavares, 2021).
Many publications that guide assessment decisions do not yet emphasize the role of philosophical positions. To be fair, authors (and journals) may interpret this absence as an implicit value statement or standard practice. For example, the 2011 “criteria for good assessment” outlined seven criteria (i.e., validity, reproducibility, equivalence, feasibility, educational effect, catalytic effect, and acceptability), without explicit mention of ontology or epistemology (Norcini et al., 2011). This omission continued when the criteria were replaced with a systems framework (Norcini et al., 2018). Further, philosophical positions do not receive mention in leading textbooks on assessment in HPE (Yudkowsky et al., 2019), validity guides (Cook et al., 2015, 2016), as a priority when looking ahead in assessment (Norcini, 2019), or in recent research on competence committees (Kinnear et al., 2018). These observations suggest that for some, attention to philosophical positions may not be necessary. By contrast, validity theorists have given this issue their attention (Borsboom & Markus, 2013; Borsboom et al., 2003; Kane, 2013) and some advances in assessment, including how programmatic assessment has evolved over time, have been influenced by attention to philosophical assumptions (Pearce & Tavares, 2021).

호환성 원칙
The compatibility principle

평가에서 철학적 위치에 대해 논하는 것은 기존 관행과 새로운 관행에 대한 평가 커뮤니티의 공통된 이해를 뒷받침하는 기초 논리를 제공한다(Tavares et al., 2019). 평가 프로그램은 모범 사례를 구성하는 사항에 대한 커뮤니티 간의 합의를 나타냅니다. 우리는 저자가 자신의 평가 결정이 철학적 위치에 의해 어떻게 형성되는지를 입증하지 못하면 저자와 독자가 똑같이 중요한 학습 기회를 놓치게 된다고 주장한다. 저자의 위치와 가정을 해석하고 추론해야 하는 우리 팀의 경험은 호환성 원칙에 대한 우리의 통찰력을 제한했다. 저자의 입장을 추론할 수 있는지 또는 추론해야 하는지에 대한 우리의 토론은 우리의 발견에 기초가 되었다. 양립원칙을 검토할 수 없음에도 불구하고, 우리는 이러한 철학적 입장과 평가특성을 통한 제정이 평가계획의 적절성과 그 의미를 결정하는 데 도움이 될 것이라는 것을 계속해서 확신하고 있습니다.

Talking about philosophical positions in assessment provides a foundational logic to support a shared understanding in the assessment community regarding existing and newer practices (Tavares et al., 2019). Assessment programs represent agreements among our community on what constitutes best practices. We argue that a key learning opportunity for authors and readers alike is missed if authors fail to demonstrate how their assessment decisions are shaped by their philosophical positions. Our team’s experience with needing to interpret and infer authors positionality and assumptions limited our insights on the compatibility principle. Our debates about whether we could or should infer authors’ positions and what they mean for assessment and assessment quality became foundational to our findings. Despite not being able to examine the compatibility principle, we continue to posit that these underlying philosophical positions and their enactment through assessment features will help to determine the appropriateness of an assessment plan and their meaning.

철학적 입장의 가치에 대한 토론
Debating the value of philosophical positions


우리는 평가 과학과 실천의 철학적 기초에 주의를 기울일 필요가 없을지도 모른다는 비판의 주장을 예상한다. 이에 대응하여, 우리는 이러한 철학을 식별하고 특징짓는 것이 적어도 두 가지 광범위한 이점을 제공한다고 주장할 것이다. 첫째, 평가에서 철학적 위치에 대해 명확하게 하는 것은 암묵적 가정을 식별하고 도전하는 데 도움이 될 수 있다. 현대적 타당성은 구조와 그 평가 사이의 관계와 공동체에 설득력이 있는 둘 사이의 관계에 관한 것이다. 공동체가 어떤 철학적 입장을 취하고, 가치를 매기고, 논의하는지가 비판적이 된다. 일반적인 평가 언어는 개념이 다르거나 구별할 수 없는 의미를 가질 때 의미를 빠르게 잃는다. 둘째, 철학적 입장을 명확히 하는 것은 "평가 맥락에서 철학적 입장과 그 양립가능성의 역할과 관련성과 관련된 핵심 원칙들을 질문, 반박, 세분화, 확장 및/또는 결정할 수 있는 기회를 제공할 것이다"(Tavares et al., 2019).
We anticipate the criticism argument that attending to the philosophical underpinnings of assessment science and practice may not be necessary. In response, we would argue that identifying and characterizing these philosophies offers at least two broad advantages. First, being clear about philosophical positions in assessment may help identify and challenge implicit assumptions. Modern validity is about the relationship between a construct and its assessment and the relationship between the two being persuasive to the community. Which philosophical positions that community holds, values, and discusses becomes critical. A common assessment language loses meaning quickly when the concepts hold different or indistinguishable meanings. Second, being clear about philosophical positions would provide an opportunity to “question, refute, refine, extend, and/or determine further a core set of principles related to the role and relevance of philosophical positions and their compatibility in an assessment context” (Tavares et al., 2019).

분명한 것은, 우리의 연구 결과는 평가 커뮤니티가 평가 문제와 해결책을 조사하는 방법을 계속 넓히고 있기 때문에 철학적 입장과 관련 가정이 더 가시화되어야 한다는 것이다. 평가는 다양한 방법으로 통보되고 개념화되며 제정될 수 있습니다. 명시적으로, 개념적으로 그리고 실질적으로 평가 대상(즉, 구성), 방법(즉, 평가 방법), 이유(즉, 위치 및 가정)를 연결하지 않고, 우리의 경험은 평가가 다양하게 해석되고 잠재적으로 훼손될 수 있다는 것이다. 예를 들어, 지식 생산의 관점에서, 구조의 특성을 사회적 구성물로 위치시키는 것은 혼란스러울 수 있지만, 객관성을 촉진하고 다른 유효성 증거 대신 신뢰성과 일반화에 의존하기 위한 시도로 관찰의 엄격한 척도를 적용하는 것은 혼란스러울 수 있다. 지식 사용 관점에서 평가 연구가 사용자가 실증주의적 입장을 견지한 경우 오류 완화 전략(예: 평가자 훈련)을 포함하지 않으면 치명적으로 결함이 있다고 결론 내릴 수 있다. 이러한 문제에 주의를 기울이지 않는다면, 평가 자체의 설명을 명시하지 않고도 타당성에 대한 합리적인 평결을 내릴 수 있다는 가정이 된다.
To be clear, our findings simply suggest that philosophical positions and associated assumptions be made more visible as the assessment community continues to broaden ways of interrogating assessment problems and solutions. Assessment, can be informed by, conceptualized, and enacted in different ways. Without explicitly, conceptually and practically connecting what is being assessed (i.e., constructs), with how (i.e., assessment methods), and why (i.e., positions and assumptions), our experience is that assessment becomes variably interpreted and potentially undermined. For example, from a knowledge production perspective, it may be confusing to position the nature of constructs as social constructions, but to then apply strict measures of observation in an attempt to promote objectivity, and to rely on reliability and generalizations, instead of other validity evidence. From a knowledge use perspective, one may conclude an assessment study is fatally flawed if it fails to include error mitigation strategies (e.g., rater training) if that user held positivist position. Without attention to these issues, the assumption becomes that one can give a reasonable verdict on validity without specifying an account of assessment itself.

우리의 예
Our example

우리는 또한 우리 팀의 구성원들이 우리 자신의 연구에서 평가 특징의 기초가 되는 철학적 위치에 대한 주요 세부 사항을 누락하거나 모호하다는 것을 주목한다. 예를 들어, 우리는 철학적 입장을 우선시할 때 우리 자신의 논문 중 하나가 어떻게 다르게 보일지 고려했다(Tavares et al., 2018). 표 3에서, 우리는 발췌본을 선택하고 우리의 의도된 철학적 입장을 더 잘 보이게 할 원본 본문에 추가 사항을 제안했다. 우리는 이러한 방식으로 입장을 명시하는 것 외에도, 저자들은 그들이 선택한 철학적 입장이 자신들에게 또는 그것이 어디서 파생되는지를 정의할 책임이 있다는 것을 주목한다.
We note that members of our team have also omitted or been vague regarding key details about the philosophical positions underlying assessment features in our own research. As an example, we considered how one of our own papers would look different in prioritizing philosophical positions (Tavares et al., 2018). In Table 3, we selected excerpts and suggested additions to the original text that would make our intended philosophical positions more visible. We note that in addition to making positions explicit in this way, authors have the responsibility to also define what their chosen philosophical position(s) mean to them or from where it is derived.

HPE 평가 커뮤니티에 대한 권장 사항
Recommendations for the HPE assessment community

평가 커뮤니티를 발전시키면 다음과 같은 권장 사항을 활용할 수 있습니다.
Moving forward our assessment community may benefit from the following recommendations:

1. 평가에서 철학적 입장이 등장한 비교적 새로운 방식을 고려할 때, 다른 맥락(예: 과학적 탐구, 혼합 방법 연구, 의학 교육)에서 평가 맥락으로의 철학적 입장 전환을 검토한다.
1.Examine the translation of philosophical positions from other contexts (e.g., scientific inquiry, mixed methods research, medical education) to assessment contexts, given the relatively new ways philosophical positions have emerged in assessment.
2. 가능한 철학적 입장의 연속성을 배우고 평가 특징에 대한 결정에 미치는 영향을 고려하는 방법에 대한 책임을 집니다.
2.Assume accountability for learning about the continuum of possible philosophical positions, and about how to consider the implications for decisions about assessment features.
3. 평가 작업을 알리는 철학적 입장을 명확히 표현합니다(예: 표 3).
3.Clearly articulate the philosophical positions informing assessment work (e.g., Table 3).
4.철학적 입장을 이용하여 선택을 정당화하는 방법보다는 평가에 대한 설계와 이해를 직접 알립니다. 교육 연구에 이론을 사용하는 것과 유사하게, 철학적 입장은 생성적(즉, 평가 활동이 보증된 주장을 제공하는 방법과 이유)이 될 수 있는 기회를 제공한다.
4.Use philosophical positions to directly inform the design and understanding of assessment, rather than as a way to justify the choices made. Similar to the use of theory in education research, philosophical positions provide opportunities to be generative (i.e., how and why assessment activities provide warranted assertions).
5.철학적 입장, 철학적 다원성, 평가 특징 간 양립가능성의 역할과 관련성에 대해 계속 질문하고, 반박하고, 확장하며, 추가로 판단합니다.
5.Continue to question, refute, extend, and determine further the role and relevance of philosophical positions, philosophical plurality, and the compatibility within and across assessment features.
6.평가 과학에 관한 보고서가 공통의 언어, 의미 및 철학적 입장을 표현, 발전 및 도전적으로 사용하는 것에 대한 기대치를 공유하도록 하기 위한 예비 표준을 개발한다.

6.Develop preliminary standards to ensure reports on assessment science share a common language, meaning, and set of expectations for expressing, advancing, and challenging use of philosophical positions.

표 3 철학적 입장을 명시하기 위해 이전 연구에서 발췌한 내용을 재구성(Tavares et al., 2018)
Table 3 Reframing excerpts from a previous study (Tavares et al., 2018) to make philosophical positions explicit

 

한계
Limitations

우리는 2019년에 이 프로젝트를 시작했고 데이터베이스 인덱싱 제한 때문에 그 해까지의 기사는 포함하지 않았습니다. COVID는 우리를 더 지연시켰다. 따라서 일부에서는 이 분석을 "구식"으로 인식할 수 있지만, 중요한 서술적 관점은 연구자들이 대표적이라고 여기는 샘플을 깊이 조사해야 한다는 것을 시사한다는 점에 주목한다. 또한, 우리는 이러한 발견들을 우리의 논의에서 가장 최근의 문헌과 지침에 위치시켰으며, 평가에서 철학적 입장과 관련된 문제들이 해결되었다는 증거를 보지 못했다. 내재적 역할을 포함하는 성과 기반 평가에만 초점을 맞추기로 선택하면서, 우리는 그러한 연구가 인문학과 사회과학에서 내재적 역할의 뿌리와 관련된 보다 다양한 철학적 입장을 포함했을 수 있다고 가정했다. 또한 성과 기반 평가는 그러한 평가가 HPE에서 얼마나 잘 확립되어 있는지를 감안할 때 평가 기능의 기초 위치(예: 관찰자의 역할)를 보다 명확하게 개략적으로 설명할 수 있을 것으로 기대했다. 두 가지 가정 모두 이의를 제기할 수 있으며, 우리의 연구 결과는 다른 연구 표본(예: 필기 시험, 절차 기술)에는 적용되지 않을 수 있다. 또한, 세 가지 광범위한 평가 기능에 초점을 맞추기로 선택할 때, 우리는 다른 기능들을 고려하지 않았다. 일부 더 세분화된 것이 도움이 될 수 있다. 많은 다른 특징(예: 맥락의 역할, 표본 추출의 역할)을 고려할 수 있었지만, 우리는 구성의 특성, 관찰자의 역할 및 정당화 전략이 데이터 추출을 용이하게 할 만큼 충분히 일반적이라고 가정했다. 마지막으로, 우리는 검토자들을 철학적 입장의 두 가지 주요 극점에 민감하게 했다. 사후 긍정주의/객관주의/주관주의를 선택함에 있어서, 우리는 이것들이 중요한 견해이거나, 더 중요한 것은, 더 많은 변증법적 접근법(즉, 이것들과 다른 사고방식들 사이에서 움직이는 것)이 평가에서 고려되고 사용될 수 없는 견해라는 것을 제안하려고 의도하지 않았다. 이러한 이분법을 사용하는 우리의 선택은 HPE의 평가 과학 상태에 대한 우리의 이해에 기초했다. 변증법적 접근법의 역할과 사용을 포함하여 검토자를 다른 입장이 아닌 이러한 입장에 민감하게 만드는 것이 우리의 결과에 영향을 미쳤을 수 있다.

We began this project in 2019 and did not include articles up to that year due to database indexing limitations. COVID delayed us further. Consequently, some may perceive this analysis as “out of date”; however, we note that the critical narrative perspective suggests that researchers deeply probe a sample they deem to be representative. Further, we have positioned these findings in the most recent literature and guidelines in our discussion, and have not seen evidence suggesting issues related to philosophical positions in assessment have been resolved. In choosing to focus only on performance-based assessments that included an intrinsic role, we assumed such studies may have included more variable philosophical positions related to the roots of intrinsic roles in humanities and social sciences. We also expected performance-based assessments might more clearly outline the positions underlying the assessment features (e.g., role of observer), given how well established such assessments are in HPE. Both assumptions could be challenged, and our findings may not apply in a different sample of studies (e.g., written tests, procedural skills). Also, in choosing to focus on three broad assessment features, we did not consider others; some further granularity may be helpful. While many other features (e.g., the role of context, the role of sampling) could have been considered, we assumed that the nature of constructs, the role of observers, and justification strategies were common enough to facilitate our data extraction. Finally, we sensitized our reviewers to two major poles of philosophical positions. In selecting post-positivism/objectivism and constructivism/subjectivism, we did not intend to suggest that these are the views that matter, or more importantly, that more dialectal approaches (i.e., moving between these and other ways of thinking) cannot be considered and used in assessment. Our choice in using this dichotomy was based on our understanding of the state of assessment science in HPE. Sensitizing our reviewers to these and not other positions, including the role and use of dialectal approaches, may have impacted our results.

결론들
Conclusions

HPE의 평가 커뮤니티는 구성과 역량의 특성, 평가 방법의 사용 및 의사결정을 정당화하기 위한 증거의 사용을 이해하는 방법을 넓혔다. 이러한 각각의 측면은 서로 다른 철학적 위치에 의해 알려지는 것으로 보인다. 그러나, 대부분의 경우, 저자들은 그들의 근본적인 철학적 입장을 보이지 않게 하여, 의도와 의미를 추론할 수 있게 한다. 증가하고 변화하는 평가 커뮤니티에서 지식 사용자는 저자가 자신의 기본 가정을 준수했는지 여부, 다양한 평가 기능의 기초가 되는 가정에 호환성이 있는지 여부 및 방어 가능한 청구가 무엇인지에 대한 불확실성을 갖게 될 수 있다. 이러한 철학적 입장이 평가에서 가시화될 때까지, 이 문제를 탐구하는 것은 암묵적인 일로 남아있고 연구 질과 방어성을 판단하는 것은 누가 해석을 하는지에 의해 형성되는 가변 해석 과정이 된다.

The assessment community in HPE has broadened how it understands the nature of constructs and competence, its use of assessment methods, and its use of evidence to justify decisions. Each of these facets appears to be informed by different underlying philosophical positions. However, in most instances, authors have not made their underlying philosophical positions visible, leaving intentions and meaning to be inferred. In a growing and shifting assessment community, knowledge users may be left with uncertainty regarding whether authors have adhered to their underlying assumptions, whether there is compatibility in the assumptions underlying various assessment features, and what defensible claims can be made. Until these philosophical positions are made visible in assessment, exploring this issue remains an implicit affair and judging study quality and defensibility becomes a variable interpretive process that is shaped by who is doing the interpreting.

 

 


Adv Health Sci Educ Theory Pract. 2021 Aug 9.

 doi: 10.1007/s10459-021-10063-w. Online ahead of print.

Implicit and inferred: on the philosophical positions informing assessment science

Walter Tavares 1Kathryn Hodwitz 2Paula Rowland 3Stella Ng 4Ayelet Kuper 5Farah Friesen 6Katherine Shwetz 7Ryan Brydges 8

Affiliations expand

  • PMID: 34370126
  • DOI: 10.1007/s10459-021-10063-wAbstractKeywords: Assessment; Clinical competence; Paradigms; Philosophical positions; Validity.
  • Assessment practices have been increasingly informed by a range of philosophical positions. While generally beneficial, the addition of options can lead to misalignment in the philosophical assumptions associated with different features of assessment (e.g., the nature of constructs and competence, ways of assessing, validation approaches). Such incompatibility can threaten the quality and defensibility of researchers' claims, especially when left implicit. We investigated how authors state and use their philosophical positions when designing and reporting on performance-based assessments (PBA) of intrinsic roles, as well as the (in)compatibility of assumptions across assessment features. Using a representative sample of studies examining PBA of intrinsic roles, we used qualitative content analysis to extract data on how authors enacted their philosophical positions across three key assessment features: (1) construct conceptualizations, (2) assessment activities, and (3) validation methods. We also examined patterns in philosophical positioning across features and studies. In reviewing 32 papers from established peer-reviewed journals, we found (a) authors rarely reported their philosophical positions, meaning underlying assumptions could only be inferred; (b) authors approached features of assessment in variable ways that could be informed by or associated with different philosophical assumptions; (c) we experienced uncertainty in determining (in)compatibility of philosophical assumptions across features. Authors' philosophical positions were often vague or absent in the selected contemporary assessment literature. Leaving such details implicit may lead to misinterpretation by knowledge users wishing to implement, build on, or evaluate the work. As such, assessing claims, quality and defensibility, may increasingly depend more on who is interpreting, rather than what is being interpreted.

+ Recent posts