종합에서 해석까지: 어떻게 평가자가 역량기반포트폴리오의 복잡한 데이터를 판단하는가(Adv in Health Sci Educ, 2017)
From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio
Andrea Oudkerk Pool1 • Marjan J. B. Govaerts1 • Debbie A. D. C. Jaarsma2 • Erik W. Driessen1
서론 Introduction
역량 기반 평가의 증가로 포트폴리오가 평가 시스템의 핵심 요소로 인식되고 있습니다. 형식과 내용이 다를 수 있지만, 일반적으로는 포트폴리오는 수행된 작업에 대한 보고, 동료 및 교수진으로부터 받은 피드백, 진행 상황, 역량 향상 방법에 대한 목표 및 계획을 모두 포함하고 있습니다(Driessen et al. 2007).
With the rise of competency-based assessment, portfolios are increasingly seen as the linchpin of assessment systems. Although their format and content may differ, generally they all contain reporting on work done, feedback received from peers and faculty, progress made, and goals and plans on how to further improve competence (Driessen et al. 2007).
세계적으로 여러 의과대학은 학생의 성취도 평가에 포트폴리오가 핵심인 역량 기반 평가 시스템을 구현했다(Dannefer와 Henson 2007; Davis et al. 2001; Driessen 2016; Smith et al. 2003). 이러한 포트폴리오 기반 평가 시스템에서 학생들의 역량 수준에 관한 결정은 일반적으로 전문가의 판단에 의존한다. 전문 심사관은 포트폴리오에서 관련 증거를 선택, 해석 및 통합할 수 있으며, 결과적으로 학생의 역량에 대한 타당한 결정을 내릴 수 있다고 가정한다.
Worldwide, multiple medical schools have implemented competency-based assessment systems in which the portfolio is key to the assessment of students’ achievements (Dannefer and Henson 2007; Davis et al. 2001; Driessen 2016; Smith et al. 2003). In these portfolio-based assessment systems, decisions regarding the students’ level of competence typically rely on expert judgment. It is assumed that expert judges are able to select, interpret, and integrate relevant evidence in the portfolio, and consequently make a valid decision about a student’s competence.
더욱이 최근 훈련 중 평가에 관한 연구는 [교수진이 미래의 임상의에서 중요한 자질로 보는 것]과 [역량 기반 평가에서 정의된 역할] 사이의 불일치를 보여주었다(Ginsburg et al. 2011; Resenting et al. 2016; Rosenbluth et al. 2014). 학생들의 임상 역량 수준을 평가하도록 요청받았을 때, 교수진은 레지던트에 따라 특정 측면에 다양한 중요도를 부여했다. 즉, 뛰어난 학생의 단점은 무시될 수 있는 반면 약한 학생들의 강한 속성은 간과할 수 있었다(긴스버그 외. 2010). 게다가, 평가자에게 중요한 일부 구조는 고려할 역량조차 아니었다. 예를 들어, 평가자는 학생이 감독관에게 어떤 영향을 미치는지에 큰 중요성을 부여했습니다('직원에 미치는 영향').
Moreover, recent studies on in-training evaluations revealed a discrepancy between what faculty see as important qualities in a future clinician, and the roles defined within competency-based assessment (Ginsburg et al. 2011; Renting et al. 2016; Rosenbluth et al. 2014). When asked to assess students’ level of clinical competence, faculty assigned varying degrees of importance to certain aspects depending on the resident: shortcomings of exceptional students could be discounted while strong attributes of weaker students were overlooked (Ginsburg et al. 2010). Besides, some constructs that were of importance in the considerations of assessors were not even competencies at all. For example, assessors attached great importance to how the student affected the supervisor (coined ‘impact on staff’).
효과적인 교육에 대한 [공통된 비전]을 가지고 있고 많은 [동일한 증거]를 인용하는 평가자도 [상당히 다른 '이야기' 또는 수행에 대한 해석적인 요약]을 개발할 수 있다(슈츠와 모스 2004).
even assessors who hold a shared vision of effective teaching and who cite much the same evidence can, nonetheless, develop significantly different ‘stories’ or interpretive summaries of performance (Schutz and Moss 2004).
방법론 Methodology
세팅 Setting
이 연구는 네덜란드 마스트리히트 대학의 의학 석사 프로그램에서 정해졌다. MiM 커리큘럼은 의학 학사 이후 3년 동안 계속됩니다. 그것은 임상실습, 연구 프로젝트, 그리고 일렉티브로 구성되어 있다. 커리큘럼은 CanMEDs 프레임워크를 중요한 평가 프레임워크로 사용하여 역량 기반 교육과 평가의 원칙에 따라 설계되었다(Frank와 Danoff 2007). 역량 기반 평가는 학생들이 각 역량 영역에서 학습 및 개발 증거를 수집하고 반성하는 웹 기반 포트폴리오 시스템에 의해 지원된다(Moonen-van Loon et al., 2013). 모든 학생들에게는 자신의 평가와 성찰, 학습 목표 설정 등을 지도함으로써 학생의 역량 개발을 감시하는 멘토가 배정된다. 멘토와 학생은 1년에 3~4번 만나며, 그 동안 멘토는 역량 개발 및 포트폴리오에 대해 학생들과 논의합니다.
The research was set in the Master’s in Medicine (MiM) programof Maastricht University, the Netherlands. The MiM curriculum spans a 3-year period following the bachelor’s in Medicine. It consists of clerkships, a research project, and electives. The curriculum has been designed according to the principles of competency-based education and assessment, using the CanMEDS framework as overarching assessment framework (Frank and Danoff 2007). Competency-based assessment is supported by a web-based portfolio system in which students collect and reflect on evidence of their learning and development in each of the competency domains (Moonen-van Loon et al. 2013). Every student is assigned a mentor who monitors the student’s competency development by guiding the student in his or her self-assessments and reflections, and in setting learning goals. Mentor and student meet three to four times per year, during which the mentor discusses the competency development and portfolio with the student.
참여자 Participants
우리는 의도적으로 최대 변동 샘플링(Patton 1990)을 사용하여 18명의 멘토-평가자를 선택했습니다. 평가자의 의료 배경의 변화를 극대화하기 위해 다양한 의료 전문 분야(가족 의료 및 외과 및 비외과 전문 분야)에서
We purposefully selected 18 mentor-assessors using maximum variation sampling (Patton 1990). To maximize variation in assessors’ medical backgrounds, we selected assessors from different medical specialties (Family Medicine and surgical as well as non-surgical specialties).
학생 포트폴리오 Student portfolio
본 연구의 목적을 위해, 연구팀은 (심리학자, 두 명의 교육학자, 그리고 한 명의 수의사로 구성된) 3개의 서로 다른 학생 프로필을 대표하는 3개의 모의 포트폴리오를 개발했으며, 각각은 다양한 수준의 역량 성취도를 반영했다. 이전 연구에서 평가자가 비의료 전문가 역량을 평가하는 데 어려움이 있다는 것을 보여주었기 때문에, 학생 프로파일에서 우리는 [의료 전문가 역량]과 [다른 역량]을 구별하기로 결정했다(Whitehead et al. 2015).
For the purpose of this study, the research team (consisting of a psychologist, two educationalists and a veterinarian) developed three mock portfolios representing three different student profiles, each reflecting varying levels of competency achievement. In our student profiles we chose to make a distinction between de medical expert competency and other competencies because previous research has shown that assessors have difficulty assessing the non-medical expert competencies (Whitehead et al. 2015).
포트폴리오 (A) 의료 전문가 영역에서는 주로 긍정적인 피드백, 관리자와 의사소통 영역에서는 비판적 피드백과 긍정적인 피드백,
포트폴리오 (B) 의료 전문가 분야에서 비판적인 긍정적인 피드백, 그러나 다른 역량에 대한 긍정적인 피드백, 그리고
포트폴리오(C)는 모든 도메인에서 주로 긍정적인 피드백입니다.
portfolio (A) predominantly positive feedback in the medical expert domain, but both critical and positive feedback in the domains of manager and communicator;
portfolio (B) both critical and positive feedback in the domain of medical expert, but predominantly positive feedback on the other competencies; and
portfolio (C) predominantly positive feedback in all domains.
포트폴리오에는 학생의 자체 평가, 작업장 기반 평가(mini-CEX, DOPS, 현장 노트, 다중 소스 피드백), 진행 시험 결과, CV 등을 포함한 [18주 기간의 임상 로테이션] 동안 수집된 학생의 역량에 대한 증거가 포함되어 있었다. 각 포트폴리오에는 서술적 피드백, 역량 등급 및 자격(즉, 불충분, 충분 및 양호)과 개별 CanMED 역량과 관련된 테스트 결과가 포함되었습니다. 그림 1은 본 연구에 사용된 온라인 포트폴리오 환경의 인쇄 화면을 제공합니다.
The portfolios contained evidence on a student’s competencies collected during a single 18-week clinical rotation, including student’s self-assessments, workplace-based assessments (mini-CEXs, DOPSs, field notes, multi-source feedback), progress test results, and a curriculum vitae. Each portfolio comprised narrative feedback, competency ratings and qualifications (i.e., insufficient, sufficient, and good) as well as test results pertaining to each of the individual CanMEDS competencies. Figure 1 provides a print screen of the online portfolio environment used for this study.
윤리 Ethical approval
자료 수집과 분석 Data collection and analysis
24명의 멘토 평가자를 이메일로 초대하여 참여 전에 동의를 받았습니다. 18명의 평가자들이 우리의 초대에 응했다. 각 평가자는 세 가지 포트폴리오 버전 중 하나를 제시받았고, 따라서 각 포트폴리오 버전은 여섯 명의 평가자에 의해 평가되었다.
We invited 24 mentor–assessors via e-mail to participate and obtained their consent prior to participation. Eighteen assessors responded to our invitation. Each assessor was presented one of the three portfolio versions, each portfolio version was therefore assessed by six assessors.
평가자들은 이 내용을 주의 깊게 읽고 '부족하다', '충분하다', 또는 '좋다'고 평가함으로써 학생의 전반적인 직업적 역량에 대한 전체적인 판단을 내리도록 지시받았다.
Assessors were instructed to carefully read it and provide a holistic judgment of the student’s overall professional competence by rating it as ‘insufficient,’ ‘sufficient,’ or ‘good.’
포트폴리오 평가 중 평가자의 인지 처리를 포착하기 위해, 우리는 think-aloud 방식(Van Someren et al., 1994)을 사용했는데, 이는 우리가 평가자들에게 포트폴리오를 읽고 평가하는 동안 모든 생각, 아이디어 및 결정을 언어화하도록 지시했다는 것을 의미한다. 만약 그들이 몇 초 이상 침묵한다면, 우리는 그들에게 그들의 생각을 계속 말하라고 상기시켰다.
To capture assessors’ cognitive processing during portfolio evaluation, we employed the think-aloud method (Van Someren et al. 1994), which means that we instructed assessors to verbalize all their thoughts, ideas, and decisions while reading and evaluating the portfolio. If they fell silent for more than a few seconds, we reminded them to keep verbalizing their thoughts.
결과 Results
평가자의 정보 처리과정: 3단계 순환적 프로세스
Assessors’ information processing: a 3-phase cyclical process
정보 처리에서 모든 평가자는 각각 정보를 [획득, 조직, 통합]하는 유사한 순환 패턴을 따랐다.
첫 번째 단계에서 평가자는 가장 중요하고 신뢰할 수 있는 근거 중 판단의 근거가 되는 것으로 간주되는 정보를 선택하였다.
이 정보를 검토한 후, 그들은 그것이 학생들의 [역량의 여러 측면aspects]에 대한 [정보에 근거한 판단]에 기여하는지 여부와 그 방법을 정의했다.
평가자들은 그 후에 다양한 증거의 출처를 따져보고 학생의 능력에 대한 예비판단을 결정했다.
In processing information, all assessors followed a similar cyclical pattern of acquiring, organizing, and integrating information, respectively.
During the first phase, assessors selected the information they considered the most important and credible pieces of evidence upon which to base their judgment.
After reviewing this information, they defined if and how it contributed to an informed judgment about aspects of student’s competence.
Assessors subsequently weighed the various sources of evidence and decided on a (preliminary) judgment of the student’s competence.
첫 번째 라운드가 끝나자, 평가자는 나머지 포트폴리오 증거를 검토하여 추가 확인 또는 확인되지 않은 데이터를 찾아 정보 획득 단계를 반복했고, 이는 다시 정보의 조직과 통합에 영향을 미쳤다. 이 반복적인 과정은 평가자가 학생의 능력에 대한 판단을 내릴 수 있을 만큼 충분한 정보를 얻었다고 느낄 때까지 평가자가 새로운 포트폴리오 증거를 검토할 때마다 반복되었다. 여러 출처의 다른 증거들을 비교함으로써, 평가자들은 점차적으로 학생의 역량 패턴을 인식하게 되었다.
Upon conclusion of the first round, assessors reviewed the remaining portfolio evidence to look for additional confirming or disconfirming data thereby repeating the information acquisition phase which, in turn, influenced the organization and integration of information. This iterative process was repeated every time the assessor reviewed new portfolio evidence, until assessors felt they had obtained enough information to make a judgment about the student’s competence. By comparing different pieces of evidence from multiple sources, assessors gradually came to recognize patterns in the student’s competence.
더욱이 중요한 발견은 다음과 같은 명백한 증거에 직면했을 때조차 [평가자가 초기 판단을 고수하는 경향]이 있다는 것이다. 비록 그들의 최종 판단이 그들의 예비판단에 비해 더 정교하고 세밀했지만, 그들은 그들의 초기판단과 실질적으로 다르지 않았다. 학생 프로파일 간의 차이는 학생의 능력에 대한 평가 과정이나 평가자의 전반적인 판단에 영향을 미치지 않는 것으로 보였다. 대부분의 평가자들은 학생들의 능력이 충분하다고 평가했다.
A salient finding, moreover, was that assessors were inclined to stick to their initial judgments even when confronted with seemingly disconfirming evidence: Although their final judgments were, indeed, more elaborate and detailed compared to their preliminary judgments, they were not substantially different from their initial judgments. Differences between student profiles did not seem to affect the judgment process or assessors’ overall judgment of the student’s competence: Most assessors rated the students’ competence as sufficient.
학생 평가에 대한 평가자의 독특한 접근 방식
Assessors’ idiosyncratic approaches to the student evaluation
어떤 평가자는 최종 판단을 내리기 전에 전체 포트폴리오를 읽지만, 다른 평가자는 주로 자신의 판단에 inform하기 위해 학생의 자체 평가 또는 직장 기반 평가 데이터에 의존했고, 대체로 추가적인 포트폴리오 증거를 무시했다.
While some assessors read the entire portfolio before providing their final judgment, others mainly relied on either the student’s self-evaluation or workplace-based assessment data to inform their judgment, largely ignoring additional portfolio evidence.
다음 단락에서는 이 세 가지 평가자 간 차이에 대해 좀 더 자세히 논의한다.
The following paragraphs will discuss each of these three inter-assessor differences in more detail.
평가자가 신뢰할 수 있는 포트폴리오 증거라고 믿었던 것의 차이
Differences in what assessors believed to be credible portfolio evidence
첫째, 평가자는 자신의 판단에 inform하기 위해 주로 서술적 피드백에 의존한다는 점을 주목해야 한다. 이는 다른 사람이 제공하는 개선사항에 대한 구체적인 제안뿐만 아니라 학생의 발전, 강점 및 약점에 대한 의미 있고 상세한 정보를 제공했기 때문이다. 성적과 자격은 단지 서술에 근거한 인상을 확인하는 데 사용되었다.
First it should be noted that assessors mainly relied on narrative feedback to inform their judgment, because this provided meaningful and detailed information about the student’s development, strengths and weaknesses, as well as specific suggestions for improvement as provided by others. Grades and qualifications were merely used to confirm impressions based on narratives.
이러한 공통성에도 불구하고, 평가자들은 [어떤 종류의 서술적 증거가 학생의 능력에 대한 가장 가치 있고 신뢰할 수 있는 정보를 제공하는지]에 대해서는 다양한 신념을 가지고 있었다.
Despite this commonality, assessors had varying assessment beliefs about what kind of narrative evidence gave the most valuable and credible information about the student’s competence.
예를 들어 평가자들은 평가를 시작하기 위해 서술적 증거의 여러 부분들을 선택하였다. 일부 평가자들은 직장 기반 평가에 대한 서술적 코멘트가 학생들의 능력에 대한 가장 확실한 증거를 생성한다고 믿고 있다. 그러나, 다른 이들은 학생들의 자기 평가와 성찰적인 글을 읽기 시작했는데, 이는 그들이 결과적으로 학생들의 주장이 정당한지 확인하기 위해 읽은 중요한 피드백 논평과 평가 양식에 대한 언급을 포함할 것이라고 가정했기 때문이다.
Assessors, for instance, chose different pieces of narrative evidence to start their evaluation: some selected narrative comments on workplace-based assessments, believing that these would generate the most authentic evidence of students’ abilities; Other, however, started reading the student’s self-evaluations and reflective writings as they assumed these would contain reference to salient feedback comments and assessment forms which they consequently read to check if the student’s claims were justifiable.
출처는 또한 증거의 신빙성을 결정하는 데 있어 중요한 것으로 보였다. 일부 평가자는 주로 의사로부터의 피드백에 의존했다. 왜냐하면 그들은 그들이 학생 역량에 대한 정확하고 의미 있는 피드백을 제공할 가능성이 가장 높기 때문이다. 반면, 다른 평가자는 동료 학생 및 간호사의 피드백을 선호했다. 다른 평가자는 학생들과 더 가깝게 일했고, 따라서 직접 관찰할 수 있는 더 많은 기회를 가졌을 것이다.
The source also appeared to matter in deciding on the credibility of evidence: Some assessors mainly relied on feedback from physicians because they perceived them as content experts most likely to provide accurate and meaningful feedback on student competence; Others, in contrast, preferred feedback from fellow students and nurses who, they presumed, had worked more closely with students and therefore had more opportunities to directly observe them.
소스 선호도의 평가자 간 차이도 [평가자의 기준 프레임]과 [학생-감독관 관계에 미칠 영향]에서 비롯되었다. 예를 들어, 복수 평가자는 [학생이 서로 다른 시점에 동일한 사람으로부터 피드백을 받았을 때] 학생의 진도가 더 안정적으로 설정될 수 있다는 믿음을 표현했다.
Between-assessor differences in source preferences also stemmed from assessors’ frames of reference and the presumed impact of student-supervisor relationships. for instance, multiple assessors expressed their belief that student’s progress could be established more reliably when the student had received feedback from the same person at different points in time,
동시에, 다른 평가자는 여러 평가자의 입력input을 가치 있게 평가했으며, 이는 1인 피드백에 비해 더 신뢰할 수 있고 더 유용한 것으로 추정했다. 선호도를 설명할 때, 몇몇 평가자는 선택 편향에 대한 인식(즉, 학생들이 피드백을 제공하기 위해 의도적으로 더 관대한 평가자를 선택)과 충돌을 피하기 위해 부정적인 의견을 적기를 꺼리는 피드백 제공자를 유발했다.
At the same time, other assessors did value the input from multiple assessors, which they estimated to be more reliable and more informative compared to single-person feedback. In explaining their preferences, several assessors invoked perceptions of selection bias (i.e., students purposively selecting more lenient assessors to provide feedback) and feedback providers’ reluctance to write down negative comments so as to avoid conflicts:
마지막으로, 포트폴리오의 평가 데이터는 또한 감독의 퀄리티애 대한 다양한 인상을 유도했다. 예를 들어, 감독자가 상세한 서면 피드백을 제공하지 못했을 때, 여러 평가자는 감독자가 필수 코멘트를 적었으며 구두로 보다 정교한 피드백을 제공했다고 가정했다. 그러나 다른 사람들은 그 학생이 관찰되지 않았다고 믿었고 따라서 감독관 평가의 신뢰성에 의문을 제기했습니다.
Finally, the assessment data in the portfolio also induced different impressions about the quality of supervision. When a supervisor, for instance, failed to provide detailed written feedback, several assessors assumed that the supervisor had probably written down the essential comments and had provided more elaborate feedback verbally. Others, however, believed that the student had gone unobserved and therefore questioned the credibility of the supervisors’ assessments.
무엇이 '역량'을 구성하는지에 대한 해석의 차이
Differences in interpretations of what constitutes ‘competence’
무엇이 역량을 구성하는지에 대한 이러한 가변적 해석의 결과로, 평가자들은 판단을 내리기 위해 학생에 대해 무엇을 알아야 하는지에 대해 다르게 생각했다. 흥미롭게도, 이러한 소위 '성과 이론'은 공식적인 평가 기준에서 벗어나는 경향이 있었다.
As a result of these variable interpretations of what constitutes competence, assessors thought differently about what they needed to know about the student to be able to form a judgment. Interestingly, these so-called ‘performance theories’ tended to deviate from the formal assessment criteria.
한 평가자 그룹은 학생들의 역량을 [그들이 자신의 학습 과정에 적극적으로 참여하고 역량 향상을 위한 피드백을 효과적으로 사용하는 정도]로 정의했다. 좀 더 구체적으로, 그들은 [학습과 평가에 대한 적극적인 참여]를 좋은 학생의 핵심적 자질이라고 생각했다. 따라서, 성장을 확립하기 위해, 그들은 종종 포트폴리오 증거를 시간 순으로 읽어서 임상 로테이션 초기에 잘 진행되지 않았던 측면이 시간이 지남에 따라 개선되었는지 여부를 점검한다. 비슷하게, 그들은 학생이 개선이 필요한 모든 측면을 추적했는지 확인하기 위해 작업영역 기반 평가와 피드백을 선별했다. 그들은 또한 학생들이 학습 목표와 약속에 대해 후속 조치를 취하는 것이 필수적이라고 생각했기 때문에 학생들의 자기 평가와 학습 목표를 포함했다. 이 평가자 그룹에 따르면, [학생이 시간이 지남에 따라 충분히 향상되고 적극적으로 개선하려고 노력했다는 충분한 증거]가 있는 한, 학생의 역량이 반드시 표준에 달해야 하는 것은 아니다.
One group of assessors defined students’ competence in terms of the extent to which they actively engaged in their own learning process and effectively used feedback for competence improvement. More specifically, they considered active engagement in learning and assessment a key quality of a good student. Hence, to establish growth, they often read the portfolio evidence in chronological order to check if aspects that did not go well in the beginning of the clinical rotation had improved over time. In the same fashion, they screened the workplace-based assessments and feedback to verify whether the student had followed-up on all the aspects that needed to improve. In their perusal, they also included the student’s self-assessment and learning goals as they felt that it was vital to know if students did follow up on learning goals and appointments. According to this group of assessors, the student’s competence did not necessarily have to be up to standard as long as there was enough evidence that the student had sufficiently improved over time and actively tried to improve:
다른 평가자들은 [스스로의 역량을 성찰하는 능력]에 의해 학생들의 능력 수준을 측정했다. 결과적으로, 그들은 학생이 하나 이상의 영역에서 자신의 역량을 인식하지 못하는 경우라면 절대 안 된다는 점을 고려하여 학생의 자기반성을 검토하는 것으로 시작했다.
Other assessors measured students’ level of competence by their ability to reflect on their own competencies. Consequently, they started by reviewing the student’s self-reflections, considering it a no–no when a student was not aware of his or her competence in one or more areas:
'역량'에 대한 평가자의 해석 사이에 발견된 최종 차이는 포트폴리오의 다양한 CanMED 역량 영역에 가중치를 부여하고 평가하는 방식에 반영되었다. 포트폴리오 버전에 관계없이 대부분의 평가자는 구체적으로 '의료 전문가', '관리자' 및 '의사소통가' 역량을 대상으로 하여 나머지 역량을 검사했지만, 어떤 평가자들은 모든 범위의 역량에 초점을 맞추려고 했다. 후자와 같은 방식은 잘 정의되지 않은 역량(예: 건강 옹호자 또는 학자)에 대한 귀중한 피드백을 수집하는 것이 학생들에게 상당히 어려운 과제이기 때문에 학생 간에 차별화를 가능하게 했다. 따라서, '잘 정의되지 않는 역량'에 대한 과제를 수행할 수 있고, 이러한 증거를 성찰하는 학생들은 평균 이상이며 학습에 열심인 것으로 간주되었습니다.
A final distinction we found between assessors’ interpretations of ‘competence’ was reflected in the way they weighted and valued the various CanMEDS competency domains in the portfolio. While most assessors, regardless of portfolio version, specifically targeted ‘medical expert’, ‘manager’, and ‘communicator’ competencies and scanned the remaining competencies, others sought to bring into focus the full range of competencies. This latter tactic allowed them to differentiate between students, as collecting valuable feedback on the less well defined competencies (e.g., health advocate or scholar) is quite a challenge for students. Hence, students who were able to do so and reflected on this evidence were considered to be above average and eager to learn:
평가자가 포트폴리오 증거를 해석하는 방법의 차이
Differences in how assessors construed the portfolio evidence
전체 판단 과정 동안 평가자는 포트폴리오에 포함된 [증거에 자신의 의미를 부여]하여 학생의 능력과 태도에 대한 서로 다른 추론을 유도했다. 좀 더 구체적으로 말하면, 동일한 정보 부분에 기초하여 평가자들은 다른 결론을 도출했다. 예를 들어 학생들의 역량 및 성취에 대한 책임에 관한 것이다. 특정 학생의 직장 기반 평가에 대한 '불충분함insufficient' 등급에 대하여, [한 평가자가 지식의 부족으로 해석]한 반면, [다른 평가자는 그것을 불안정insecurity]으로 돌렸다. 반대로, 일부에서는 평가자와 감독자의 경험에서, 서면 평가는 일반적으로 평가를 후하게 하는 측면에 있다는 것을 배웠기 때문에, 장기간에 걸쳐 '충분함sufficient' 등급을 받은 학생은 '저조한 수행능력'을 가진 것으로 해석되었다.
Throughout the entire judgment process assessors lent their own meanings to the evidence included in the portfolio, leading to different inferences about the student’s competence and attitude. More specifically, based on the same pieces of information assessors drew different conclusions, for instance about students’ responsibility for their competence and achievement: An insufficient rating on a workplace-based assessment of a specific student, was construed by one assessor as the result of a lack of knowledge, while another attributed it to insecurity. Conversely, sufficient ratings over a prolonged period of time were construed as underperformance by some, since they had learned from experience as an assessor and supervisor that written assessments were generally on the positive side be as supervisors eschew failing a student:
그리고 나서 나는 그 '부족함'이라는 판단을 내리는 것이 얼마나 어려운 일인지 깨닫는다. 평가자는 학생에 대한 영향력을 누그러뜨리려는 경향이 있고, 그래서 1점이나 2점을 주는 것은 매우 어려우므로, 보통 3을 준다. 그리고 그것이 내가 누군가가 3점밖에 얻지 못할 때 조심하는 이유이다. 사실, 그 세 가지는 3점 대신 1점부터 3점까지를 의미할 수 있기 때문입니다. (평가자 12)
And then I realize how hard it is to deliver that emphatic ‘insufficient.’ You are inclined to soften the blow for that person and then it is very difficult to give a one1 or a two, so you give a three. And that is why I am cautious when someone only scores threes. Really, because those threes could also be taken to mean a score of one to three, instead of a three. (Assessor 12)
그러나 다른 평가자들은 학생에 대한 약간의 배경 정보가 없이는 포트폴리오의 평가 피드백에 대한 정확한 해석을 할 수 없다고 느꼈다. 이 평가자들은 또한 학생들의 과외 활동, 관심사, 취미에도 관심이 있었다. 학생의 배경에 대해 좀 더 알기 위한 노력으로 일부 평가자는 실제로 학생의 CV를 읽으면서 포트폴리오 검토를 시작했습니다.
Yet other assessors felt they could not make an accurate interpretation of the assessment feedback in the portfolio without having some background information about the student. These assessors were also interested in the student’s extracurricular activities, interests, and hobbies. In an effort to know more about the student’s background, some assessors actually commenced their portfolio review by reading the student’s curriculum vitae:
위에 명명된 성과 데이터의 다른 해석은 학생의 수행능력에 대한 다양한 추론을 초래했고 역량 프레임워크의 특정 요소에 대해서도 서로 동등하지만, 서로 다른 판단으로 이어졌다.
The above-named different interpretations of performance data led to varying inferences about a student’s performance and to equally dissimilar judgments about specific components in the competency framework.
예를 들어, 포트폴리오 A를 읽을 때, 평가자 1은 '의료 전문가' 역할에 큰 중요성을 부여했고, 따라서 구체적으로 이 역량에 대한 모든 포트폴리오 증거를 찾아보았다. 결과적으로, 이 평가자는 이 역량에 대한 가장 신뢰할 수 있는 정보는 의사로부터 얻었으며 직장 기반 평가에서 찾을 수 있다고 믿었다. 결국, 평가자는 학생이 의료 전문가 영역에서 능력이 부족하기 때문에 학생의 역량이 문제가 된다고 추론했다.
When reading portfolio A, for instance, assessor 1 attached great importance to the ‘medical expert’ role and therefore specifically looked for all portfolio evidence about this competency. Consequently, this assessor believed that the most reliable information about this competence came from doctors and could be found in the workplace-based assessments. In the end, the assessor inferred that the student’s competence was problematic since the student lacked competence in the medical expert domain.
그러나 동일한 포트폴리오를 읽은 평가자 2는 학생의 발전progress 상황을 파악하는 데 더 관심이 있었습니다. 이 평가자는 다중 소스 피드백의 코멘트를 읽음으로써 자신이 그렇게 할 수 있을 것이라고 믿었는데, 이 피드백은 장기간에 걸쳐 학생의 능력에 대한 여러 사람의 의견을 포함하기 때문이다. 학생이 의료 전문가 역량에 주의를 기울여야 한다는 점은 인정했지만, 평가자는 학생이 임상 교대 중에 상당히 개선되었기 때문에 우려를 갖지 않았다.
Assessor 2, however, who read the same portfolio, was more interested in determining the student’s progress. This assessor believed that by reading the comments in the multisource feedback he would be able to do so, because this feedback contained opinions of multiple people about the student’s competence over a longer period of time. Although acknowledging that the student should pay attention to the medical expert competency, the assessor was not concerned because the student had improved considerably during the clinical rotation.
고찰 Discussion
우리의 연구 결과는 평가자의 정보 처리는 정보의 획득, 구성 및 통합의 반복적인 단계에 의해 특징지어진다는 것을 시사한다. 평가자 인식에 대한 이전 연구에서도 유사한 단계가 발견되었습니다(Gauthier et al. 2016). 비록 모든 평가자들이 그들의 신뢰도 판단, 수행 이론 및 추론의 차이에서 증명되었듯이, 평가자들은 각자의 고유한 접근법을 가지고 있었지만, 그들은 결국 동일한 전반적인 판단에 도달했다. 이 결과는 Gingerich 등의 연구(2014년)와 일치한다. 평가자는 판단에 대해 다른 원인 설명을 제공했지만, 유사한 판단을 내리고 있었다.
Our findings suggest that assessors’ information processing is characterized by iterative phases of acquiring, organizing and integrating information. Previous research on rater cognition has found similar phases (Gauthier et al. 2016). Although all assessors had their unique approaches, as evidenced by differences in their credibility judgments, performance theories, and inferences, they eventually reached the same overall judgments. This finding is consistent with research by Gingerich et al. (2014) : While raters provided differentcausal explanations for their judgment, subgroups of raters were making similar judgments.
우리는 또한 평가자의 증거 선택과 이 증거가 그들의 판단에 영향을 미치는 정도는 포트폴리오 증거의 신뢰성에 대한 믿음에 의해 강하게 지배된다는 것을 발견했다.
We also found that assessors’ selection of evidence and the extent to which they let this evidence influence their judgment were strongly governed by their beliefs about the credibility of the portfolio evidence.
피드백에 직면했을 때, 학생들은 [자신의 성장에 inform하는 데 어떤 정보를 사용할지 결정]하기 위해 피드백의 신뢰성을 판단했습니다. 평가자와 마찬가지로, (학생에게도) 피드백의 출처는 신뢰도 판단에 중요한 역할을 했다. 예를 들어, 학생들이 개인의 임상적 역량을 존중할 때, 그들은 피드백을 더 쉽게 받아들일 것이다.
When confronted with feedback, students judged the credibility of this feedback in order to decide which information they would use to inform their development. As with the assessors, the source of feedback played an important role in their credibility judgment. When students, for example, respected the individual for his or her clinical competence, they would more readily accept the feedback.
Watling 외 연구진(2012)과 현재의 연구는 모두 정보의 신뢰성을 평가할 수 있으려면 피드백 소스를 아는 것이 필수적이라는 것을 입증한다.
both research by Watling et al. (2012) and the present research demonstrate that it is vital to know the feedback source in order to be able to assess the information’s credibility.
우리의 연구 결과는 또한 평가자들이 [정보에 입각한 결정]을 내리기 위해 [학생에 대해 알아야 할 것에 대한 믿음]을 가이드하는 [서로 다른 수행 이론]을 가지고 있다는 것을 보여주었다. 이전 연구를 확인하면서, 본 연구의 평가자들은 포트폴리오 구조를 제공하는 역량 프레임워크의 외부적인 측면(예: 학생 진행 및 자기반성과 같은)에 근거하여 판단했습니다.
Our findings also revealed that assessors held different performance theories which guided their beliefs about what they needed to know about a student to be able to make a well-informed decision. Confirming previous research , the assessors in our study also based their judgments on aspects (such as student progress and self-reflections) that were external to the competency framework providing the portfolio structure.
직접적인 관찰에 기초한 판단은 본질적으로 자동적 의사결정 과정을 포함한다. 사람 분류와 관련된 자동 의사결정 프로세스는 변환 오류와 역량 간의 차이를 평가할 수 없는 평가자로 이어질 수 있다는 것이 입증되었다(Kolars et al. 2003; Macrae and Bodenhausen 2000). 또한 자동 의사 결정에는 최적의 솔루션은 아니지만, 만족스러운 솔루션을 찾는 프로세스를 가속화하기 위해 사용되는, [경험적 접근 기술]의 사용이 포함된다. 유사한 의사결정 문제가 종종 더 일찍 직면하는 경우, 의사결정자들은 쉽게 의사결정에 도달하기 위해 쉽게 이용할 수 있는 전략을 사용하는 경향이 있다(Tversky와 Kaneman 1975).
Judgments based on direct observations inherently involve automatic decision-making processes. It has been demonstrated that automatic decision-making processes involving the categorization of people could lead to conversion errors and assessors’ inability to differentiate between competencies (Kolars et al. 2003; Macrae and Bodenhausen 2000). Furthermore, automatic decision-making involves the use of heuristic techniques used to speed up the process of finding a satisfactory, though possibly not optimal, solution. If similar decision-making problems have often been faced earlier, decision makers tend to use readily available strategies to arrive at a decision more easily (Tversky and Kahneman 1975).
우리의 연구에서, 휴리스틱 사용을 포함한 다양한 자동적 과정들이 평가자들의 의사 결정에도 중요한 역할을 하는 것처럼 보였다. 예를 들어 평가자는 자동으로 특정 피드백 소스를 선호한다. 또한 그들의 추론은 이전의 경험에 의해 형성되었다. 평가자는 유사한 학생에 대한 이전의 경험에 기초하여 포트폴리오 증거에 인과적 설명을 자동으로 할당했다. 비록 이러한 자동적 의사결정 과정이 판단 과정에 영향을 주었고, 평가자의 평가 이면에 있는 추론의 차이를 야기시켰지만, 평가자들은 학생들의 역량을 평가하는 데 아무런 어려움을 겪지 않았다. 더욱이, 그들의 최종적인 전반적인 평가는, 자동적인 의사결정 과정에서의 차이에도 불구하고, 조화를 이루었다.
In our study, various automatic processes including use of heuristics seemed to play a role in assessors’ decision-making as well. Assessors, for example, automatically favoured particular feedback sources. Furthermore, their inferences were shaped by previous experiences: Assessors automatically assigned causal explanations to portfolio evidence based on earlier experiences with similar students. Although these automatic decision-making processes influenced the judgment process and caused differences in assessors’ reasoning behind their evaluations, assessors experienced no difficulty assessing the students’ competence. What’s more, their final overall assessments were in harmony, despite the differences caused by automatic decision-making processes.
본 연구는 포트폴리오의 자기 평가 및 반성적 작성을 포함한 다양한 유형의 작업장 기반 평가 및 성과 평가 옆에 평가자에게 의미 있고 중요한 정보를 추가한다고 제안합니다. 분명히, 자기 평가와 성찰적 글은 평가자에게 직장 기반 평가에서 추론할 수 없는 정보를 제공한다. 우리 연구의 또 다른 중요한 기여는 평가자는 [학생의 배경에 대한 보다 일반적인 정보를 얻고 해석함으로써] 평가를 맥락화할 필요가 있다고 느낀다는 점이다.
our study suggests that, next to various types of workplace-based assessments and performance evaluations, including self-assessments and reflective writing in the portfolio adds information that is meaningful and important to assessors. Apparently, self-assessments and reflective writings provide assessors with information that cannot be inferred from workplace-based assessments. Another important contribution of our study is the observation that assessors feel need to contextualize the assessment by obtaining and interpreting more general information about the student’s background.
한계 Limitations
다음으로, think-aloud 절차는 다양한 사고 과정이 자동적이거나 너무 빨리 일어나 언어화할 시간이 없기 때문에 언어화할 수 없다는 한계가 있다(2003년 헌장). 비록 참가자들의 언어화가 일관되고 완벽해 보이지만, 우리가 모든 사고 과정을 포착하지 못했을 수도 있다는 점을 고려해야 한다. 더욱이, think-aloud를 사용하는 것은 참가자가 실제 사고과정을 보고하기 보다는 연구자를 만족시키기 위해 설명을 작성할 위험이 있다. 그러나, 우리는 think-aloud 절차 외에도, 참가자들에게 왜 그들이 특별한 결정을 내렸는지에 대한 질문을 받는 반구조적인 인터뷰도 실시했습니다. 또한, 참가자의 의사결정의 중요한 공통적인 측면이 포착됨을 나타내는 12명의 참가자 후에 이론적 포화에 도달했다.
Next, the think-aloud procedure inherently harbours a limitation in that various thought processes cannot be verbalized because they are either automatic or happen so quickly that there is no time to verbalize them (Charters 2003). Although the participants’ verbalizations seem coherent and complete, it should be taken into account that we might have not captured all thought processes. Furthermore, using think-aloud procedures has the risk of participants creating explanations to satisfy the researcher rather than reporting their actual thought processes. However, in addition to the think-aloud procedure, we also conducted semi-structured interviews in which participants were asked about the reasons why they made particular decisions. Also, theoretical saturation was reached after 12 participants indicating that important common aspects of participants’ decision-making are captured.
실질적 함의 Practical implications
이 연구는 학생들의 역량에 대해서 평가자가 자신의 판단을 설명하는 것이 중요함을 재차 강조한다. 평가자의 설명explanation 에서 확인된 차이는, (역량에 대한) 의사결정이 개별적으로 이루어지는 것이 아니라, 그룹 토론에서 비롯되어야 한다는 것을 시사한다. 복수 평가자가 학생의 역량에 대해 동일한 일반적인 판단에 도달할 수 있지만, [개별 역량에 대한 판단]과 [전체적인 판단 이면에 있는 추론]에 있어 다르다.
This study reiterates the importance of assessors explaining their judgments about students’ competence. Differences between assessors’ explanations suggest that decisions should not be made individually, but should result fromgroup discussions. Although multiple assessors may reach the same general judgment about a student’s competence, they do differ in their judgments of individual competencies and the reasoning behind their overall judgments.
또한, [다른 평가자의 판단 정책을 논의하는 것]은 평가자가 [자신의 평가 방법이 보편적으로 공유되지 않는다는 사실]을 인식하게 할 것이다. 그것은 그들이 역량과 포트폴리오 해석의 다른 관점에 익숙해지도록 도울 것이다. 이를 통해 평가자는 자신의 평가 프로세스에 다른 평가자의 평가 관행을 통합하고 역량 평가를 위한 '공유된 정신 모델'을 구축할 수 있다.
Also, discussing judgment policies of other assessors will make assessors aware of the fact that their method of assessment is not universally shared. It will help them to become acquainted with other views of competence and portfolio interpretation. This enables assessors to incorporate assessment practices of other assessors into their own assessment process, and to build ‘shared mental models’ for competence assessment.
우리의 연구 결과는 평가자 교육에 시사하는 바가 있음을 시사한다. 평가자 훈련은 자신의 신념, 수행 이론 및 추론에 대한 평가자의 인식을 높이는 데 초점을 맞춰야 한다. 만약 그들이 그들 자신의 의사 결정 과정에 대한 더 많은 통찰력을 얻고 다른 평가자들의 의견을 알게 된다면, 그들의 의사 결정은 개선될 수 있다. 또한, 훈련은 Hauer 등(2016)이 설명한 의사결정 과정에 대한 그룹 구성원 구성 및 그룹 프로세스의 영향에 초점을 맞춰야 한다.
Our findings suggest implications for assessor training. Assessor training should focus on raising assessors’ awareness of their own beliefs, performance theories, and inferences. If they gain more insight into their own decision-making process and get acquainted with those of other assessors their decision making may improve. Furthermore, training should focus on the effect of group member composition and group processes on the decision making processes as described by Hauer et al. (2016).
더욱이, 평가자는 포트폴리오 증거의 선택과 사용에 대해 서로 다른 접근방식을 가지므로, 포트폴리오가 포트폴리오 증거를 통해 선택selection과 항해navigation를 촉진하는 방식으로 설계되는 것이 중요하다. 캡션도 중요하다. 왜냐하면 역량 피드백이 학생에게 제공된 컨텍스트를 요약하기 때문이다(Van Tartwijk and Driessen 2009). 맥락은 평가자가 증거를 해석하고 판단하기 위해 증거를 사용할지 여부와 방법을 결정하는 데 도움이 된다.
Furthermore, since assessors have different approaches to the selection and use of portfolio evidence, it is important that portfolios be designed in such a way that they facilitate the selection of and navigation through the portfolio evidence. Captions are important as well, for they summarize the context in which the competency feedback was provided to the student (Van Tartwijk and Driessen 2009), helping assessors interpret the evidence and decide if and how they want to use it for their judgment.
결론 Conclusion
평가자는 포트폴리오 증거만으로 판단을 내릴 수 있었다. 비록 그들은 같은 전반적인 판단에 도달했지만, 그들은 증거를 처리하는 방식과 그들의 판단 이면에 있는 추론에 있어서 차이를 보였다. 평가자의 다른 평가 신념, 수행 이론 및 일치된 행동을 하는 추론에서 차이가 발생한다. 이러한 결과는 포트폴리오가 그들의 판단을 철저히 입증해야 하는 복수의 평가자에 의해 판단되어야 한다는 개념을 뒷받침한다. 또한 평가자는 자신의 의사 결정 과정과 그룹 결정에 영향을 미치는 요인에 대한 통찰력을 제공하는 교육을 받아야 한다.
Assessors were able to form a judgment based on the portfolio evidence alone. Although they reached the same overall judgments, they differed in the way they processed the evidence and in the reasoning behind their judgments. Differences sprung from assessors’ divergent assessment beliefs, performance theories, and inferences acting in concert. These findings support the notion that portfolios should be judged by multiple assessors who should, moreover, thoroughly substantiate their judgments. Also, assessors should receive training that provides insight into factors influencing their own decision making process and group decisions.
From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio
- PMID: 29032415
- PMCID: PMC5882626
- DOI: 10.1007/s10459-017-9793-y
Abstract
While portfolios are increasingly used to assess competence, the validity of such portfolio-based assessments has hitherto remained unconfirmed. The purpose of the present research is therefore to further our understanding of how assessors form judgments when interpreting the complex data included in a competency-based portfolio. Eighteen assessors appraised one of three competency-based mock portfolios while thinking aloud, before taking part in semi-structured interviews. A thematic analysis of the think-aloud protocols and interviews revealed that assessors reached judgments through a 3-phase cyclical cognitive process of acquiring, organizing, and integrating evidence. Upon conclusion of the first cycle, assessors reviewed the remaining portfolio evidence to look for confirming or disconfirming evidence. Assessors were inclined to stick to their initial judgments even when confronted with seemingly disconfirming evidence. Although assessors reached similar final (pass-fail) judgments of students' professional competence, they differed in their information-processing approaches and the reasoning behind their judgments. Differences sprung from assessors' divergent assessment beliefs, performance theories, and inferences about the student. Assessment beliefs refer to assessors' opinions about what kind of evidence gives the most valuable and trustworthy information about the student's competence, whereas assessors' performance theories concern their conceptualizations of what constitutes professional competence and competent performance. Even when using the same pieces of information, assessors furthermore differed with respect to inferences about the student as a person as well as a (future) professional. Our findings support the notion that assessors' reasoning in judgment and decision-making varies and is guided by their mental models of performance assessment, potentially impacting feedback and the credibility of decisions. Our findings also lend further credence to the assertion that portfolios should be judged by multiple assessors who should, moreover, thoroughly substantiate their judgments. Finally, it is suggested that portfolios be designed in such a way that they facilitate the selection of and navigation through the portfolio evidence.
Keywords: Assessment; Competency-based medical education; Information processing; Portfolio; Rater cognition; Think-aloud method; Undergraduate medical education.
'Articles (Medical Education) > 평가법 (Portfolio 등)' 카테고리의 다른 글
의학교육에서 평가의 역사(Adv Health Sci Educ Theory Pract, 2020) (0) | 2021.02.03 |
---|---|
시험을 위한 블루프린트 제작 가이드(AMEE Guide No. 125) (Med Teach, 2019) (0) | 2020.12.17 |
내러티브 코멘트의 숨은 가치: 질적 자료의 양적 신뢰도 분석(Acad Med, 2017) (0) | 2020.12.11 |
운전 연습 또는 운전 시험? 피드백을 평가와 구분하기 위한 비유(Perspect Med Educ, 2020) (0) | 2020.12.11 |
평가에서 인간판단의 공정성: 해석적 문헌 고찰과 개념 프레임워크(Adv Health Sci Educ Theory Pract, 2020) (0) | 2020.12.10 |