좋은 평가에 대한 2018 컨센서스 프레임워크(Med Teach, 2018)

2018 Consensus framework for good assessment

John Norcinia , M. Brownell Andersonb, Valdes Bollelac, Vanessa Burchd, Manuel Jo~ao Costae ,

Robbert Duvivierf, Richard Haysg , Maria Felisa Palacios Mackayh, Trudie Robertsi and David Swansonj



이 아이디어가 2018년 오타와 컨퍼런스에서 워크숍의 일부로 제시됐을 때, "Criteria"이라는 단어를 사용하는 것은 마치 평가를 판단하는데 사용하는 기준의standards의 개발을 암시했기 때문에 적절하지 않다는 강한 느낌이 있었다. 따라서 Criteria 대신 "프레임워크"라는 단어가 개별 평가 및 평가 시스템의 개발과 검토에 유용할 수 있는 구조를 만들고자 하는 우리의 바람을 더 정확하게 포착했다는 일반적인 합의가 있었다.

When these ideas were presented as part of a workshop at the 2018 Ottawa Conference, there was a strong sense that the use of the word “criteria” was not optimal since it implied the development of standards against which assessments could be judged. Instead, there was general agreement that the word “framework” more precisely captured our desire to create a structure that might be useful in the development and review of individual assessments and systems of assessment.

프레임워크의 다양한 요소들이 모든 평가에 보편적으로 그리고 같은 비중으로 적용되지 않는다. 평가의 맥락과 목적적합성은 각 요소의 중요도에 크게 영향을 미친다.

the various elements of a framework do not apply universally and equally to all the assessments. The context and purpose-priorities of assessment heavily influence the importance of those elements.

의학 졸업생들의 지식에 대한 책무성의 필요를 충족시키기 위해 고안된 시험(예: 의사국가시험)은, 미래 학습 또는 커리큘럼 개혁을 안내할 세부적인 피드백을 제공하지 않으며, 이는 애초에 그 시험은 그렇게 하도록 설계되지 않았기 때문이다.

examination designed to meet the need for accountability for the knowledge of medical graduates (e.g. a medical licensing examination) does not produce detailed feedback that would guide future learning or curricular reform, since it has not been designed to do so.

마찬가지로, 프레임워크의 요소들은 동일한 평가에 대해서조차 이해관계자들마다 가중치가 다를 수 있다. 예를 들어, 교육적 효과 및 촉매적 효과에 대해 규제 당국은 무관심한 반면, 학생들은 관심이 높다.

Similarly, the elements of the framework are not of equal weight for all stakeholders, even, given the same assessment. For example, students may value the educational and catalytic effect of an assessment while regulators might be indifferent.

흥미롭게도, 유사한 문제들이 학생 선발과 같은 다른 고부담시험에서 발생했다. 최근 선정 방법의 검토(Primidaux et al. 2011)는 "정치적 타당성"이라는 개념을 도입했다. 직업심리학 문헌에 처음 소개된 정치적 타당성이란 개념은 "선발 과정의 설계에 영향을 미치는 이해관계자(또는 이해관계자 그룹)"가 많다는 것을 인정한다(Patterson과 Zibaras 2011). 마찬가지로, 평가 프로세스처럼 다양한 관점을 가진 광범위한 이해 당사자들이 참여하는 경우에도 명백하다.

Interestingly, similar issues have arisen in other highstakes processes like student selection. A recent review (Prideaux et al. 2011) of selection methods invoked the concept of ““political validity””. First introduced in the occupational psychology literature, political validity recognizes that “there are often many stakeholders (or stakeholder groups) that influence the design of selection processes” (Patterson and Zibarras 2011). This is evident in assessment processes too, where a wide group of stakeholders with different perspectives are involved

달리 말하면, 평가 시스템은 (강건하고 방어할 수 있는 심리측정학적 특성을 가진 방법 사용) 준거관련(동시/예측) 타당성 및 정치적 타당성(다양한 이해관계자의 이해관계를 포함)을 모두 요구한다.

Put differently, systems of assessment require both criterion-related (concurrent/predictive) validity (using methods with robust and defensible psychometric properties) and political validity (including the interests of different stakeholders).

단일 평가

Single assessments

좋은 평가의 프레임워크

Framework for good assessment

표 1. 좋은 평가를 위한 프레임워크: 단일 평가.

Table 1. Framework for good assessment: single assessments.

1. 타당성 또는 일관성: 평가 결과는 일관성 있는 증거로 입증되는 특정 목적에 적합하다.

1. Validity or Coherence: The results of an assessment are appropriate for a particular purpose as demonstrated by a coherent body of evidence.

2. 재현성, 신뢰성 또는 일관성: 유사한 상황에서 반복될 경우 평가 결과는 동일하다.

2. Reproducibility, Reliability, or Consistency: The results of the assessment would be the same if repeated under similar circumstances.

3. 동등성: 동일한 평가는 다른 기관 또는 시험 주기에 걸쳐 관리했을 때 동등한 점수 또는 결정을 내립니다.

3. Equivalence: The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing.

4. 타당성: 상황과 맥락을 고려할 때 평가는 실용적이고 현실적이며 합리적입니다.

4. Feasibility: The assessment is practical, realistic, and sensible, given the circumstances and context.

5. 교육 효과: 평가는 평가를 받는 사람들에게 교육적인 이점이 있는 방식으로 준비하도록 동기를 부여.

5. Educational Effect: The assessment motivates those who take it to prepare in a fashion that has educational benefit.

6. 촉매 효과: 평가는 모든 이해당사자들이 교육을 만들고, 개선하고, 지원하도록 동기를 부여하는 방식으로 결과와 피드백을 제공한다. 이는 미래 학습을 유도하고, 전체 프로그램의 질을 향상시킨다.

6. Catalytic effect: The assessment provides results and feedback in a fashion that motivates all stakeholders to create, enhance, and support education; it drives future learning forward and improves overall program quality.

7. 수용성: 이해관계자는 평가 과정과 결과가 신뢰할 수 있다고 생각합니다.

7. Acceptability: Stakeholders find the assessment process and results to be credible.

프레임워크와 평가 목적

The framework and assessment purpose


Formative assessment

효과적인 형성평가는 전형적으로 저부담평가이며, 종종 비공식적이고 opportunistic하며, 학습을 자극하기 위한 목적이 있다.

Effective formative assessment is typically low stakes, often informal and opportunistic by nature, and is intended to stimulate learning.

형성평가는 다음의 경우에 가장 잘 작동한다

(1) 교육 과정 및/또는 임상 작업 흐름에 내장된다. 

(2) 구체적이고 실행 가능한 피드백을 제공한다. 

(3) 지속적으로 이뤄진다.

(4) 적시에 이뤄진다.

Formative assessment works best when it 

(1) is embedded in the instructional process and/or clinical work flow, 

(2) provides specific and actionable feedback, 

(3) is ongoing, and 

(4) is timely.


Summative assessment

효과적인 종합 평가는 일반적으로 중부담, 고부담 평가이며, 책무성의 요구에 대응하기 위한 것이다. 흔히 일관성 있는, 고품질의 시험 자료, 체계적인 기준 설정 프로세스, 보안 관리가 필요합니다.

Effective summative assessment is typically medium or high stakes and is intended to respond to the need for accountability. It often requires coherent, high-quality test material, a systematic standard-setting process, and secure administration.

프레임워크와 이해관계자

The framework and stakeholders


Examinees have a vested interest in both formative and summative assessment and they should be actively involved in seeking information that supports their learning. For formative assessment, educational effects, catalytic effects, and acceptability are likely to be of most concern to examinees, since these are the main drivers of learning. Examinees may take validity-coherence for granted, and feasibility will most probably be a consideration based on cost and convenience. Equivalence and reliability-consistency are of less immediate concern.

For summative assessment, issues related to perceived fairness will be most salient for examinees, as will clarity and openness about the content and process of assessment. Hence, elements such as validity-coherence, reproducibility-consistency, equivalence, and acceptability will be most important. The catalytic effect will support remediation, especially for unsuccessful examinees. When successful examinees are not provided with feedback or do not use it, the opportunity to support ongoing learning is missed.

Teachers-educational institutions

These stakeholders have interests in every facet of the assessment of students to fulfill their dual roles in education and accountability. Consistent with what was outlined above, the elements apply differently to these two roles or purposes. Validity-coherence, reproducibility-consistency, equivalence, and acceptability are particularly important to ensure correctness and fairness in decision making. Educational effects, catalytic effects, and acceptability are the cornerstones of successful student engagement and learning based on assessment.

For both teachers and institutions, student assessment information serves an important secondary purpose, namely, it speaks to the outcomes of the educational process. In other words, students’ assessments, appropriately aggregated, often serve as benchmarks for comparison and formative assessment for teachers and institutions. For such data, elements like equivalence and reproducibility-consistency are a bit less important while the educational effect and catalytic effect are a bit more important. Validity-coherence is important but should be addressed as part of good student assessment, while feasibility should be straightforward since the data are already available.

Beyond repurposing student assessment, institutions engage in the assessment of individual teachers and the evaluation of programs. These applications can be broadly classified as either formative or summative and the criteria apply as noted above.


For patients, it is most important that their healthcare providers have good communication skills, appropriate qualifications, and the ability to provide safe and effective care. While patients certainly support the use of formative assessment to help the students and practitioners in the development and refinement of these skills, summative assessment is a more immediate concern since patients need to be assured of their providers’ competence. Consequently, elements such as validity-coherence, reproducibility-consistency, and equivalence are of greatest importance. Feasibility, acceptability, educational effect, and catalytic effect are of less concern to this group. In the long term, however, formative assessment that supports and promotes continuous improvement will be important.

Healthcare system and regulators

The most pressing need of the healthcare system and the regulators is to determine which providers are competent and safe enough to enter and remain in the workforce. This need implies correct decisions based on summative assessment, so validity-coherence, reproducibility-consistency, and equivalence are paramount. Feasibility is also important since the healthcare systems and the regulators sometimes bear these costs.

It is becoming more common for health systems to engage in some form of continuous quality improvement (CQI). These systems are often embedded in the clinical work flow and they provide ongoing, specific, feedback to healthcare workers about their activities and outcomes. Validity-coherence is central, along with educational and catalytic effects, feasibility, and acceptability.

Likewise, many regulators are beginning to time limit the validity of their registration-licensure-certification decisions. This is often accompanied by the addition of a CQI component to the revalidation process. As with the healthcare system, such a component would need to emphasize validity-coherence, educational effect, educational quality, feasibility, and acceptability with less stress on equivalence and reproducibility-consistency.

평가 시스템

Systems of assessment

평가 시스템은 하나 이상의 목적을 위해 조립된assemble 일련의 개별 (평가)척도의 통합이다.

systems of assessment integrate a series of individual measures that are assembled for one or more purposes.

일반적으로 단일 평가 방법은 이러한 모든 skill들을 파악할 수 없으므로 여러 가지 척도가 필요합니다. 그러나 이러한 척도들은 종종 단독으로 사용되거나, 조정되지uncoordinated 않은 방식으로 적용된다. 이러한 조정되지 않은 (평가)척도들은 종종 그냥 과거에 하던대로 가중치를 두어 합산한 뒤 총괄적 결정에 사용된다. 평가 시스템은 다양한 이해관계자(예: 학생, 교수, 환자, 규제 기관)에 대한 다양한 목적(예: 형태별/요약적, 높은/낮은 지분)을 달성하기 위해 단일 평가를 명시적으로 혼합하여야 한다.

Single methods of assessment are generally unable to capture all of these skills so multiple measures are needed. However, these measures are often applied in isolation or at least in an uncoordinated fashion. These uncoordinated measures are often combined to reach an overall decision based on the weights dictated by tradition. A system of assessment explicitly blends single assessments to achieve the different purposes (e.g. formative versus summative; high vs. low stakes) for a variety of stakeholders (e.g. students, faculty, patients, regulatory bodies).

그림 1은 전 세계의 다양한 평가 상태를 보여줍니다.

Figure 1 illustrates the various states of assessment around the world.

그림 1.2. (태도적, 관계적 구성요소는 무시되더라도) 역량의 인지적 측면만을 평가하는 것은 드문 일이 아니다. 왜냐하면 그것이 상대적으로 검사하기 쉽기 때문이다.

Figure 1.2. it is not uncommon to mount an assessment of the cognitive aspects of competence since they are relatively easy to examine, while ignoring the performance and attitudinal/relational components.

(그림 1.3). 이를 시스템의 전반적인 목적과 통합하려는 시도는 제한적이다. 그 결과 총괄적 평가결정에 포함되는 사항에 차이가 발생하고, 비효율성이 발생하여, 어떤 분야에 대해서만 과도한 평가가 발생할 수 있습니다.

(Figure 1.3). there is a limited attempt to integrate these with the overall purposes of the system. This leads to gaps in what is covered and inefficiencies that might lead to over-assessment.

그림 1.4는 평가 시스템의 정상 작동에 가장 근접한 것이다.

Figure 1.4 comes closest to a well-functioning system of assessment.

좋은 평가의 프레임워크

Framework for good assessment

평가 시스템에 적용가능한 프레임워크

The elements of a framework for good assessment in Table 4 are applicable to a system of assessment.

표 4. 평가 체계 : 평가 체계

Table 4. Framework for Good Assessment: Systems of Assessment.

1. 일관성: 평가 시스템은 동일한 목적을 중심으로 질서 정연하게 조정된 개별 평가 및 독립적인 성과로 구성된다.

1. Coherent: The system of assessment is composed of multiple, coordinated individual assessments and independent performances that are orderly and aligned around the same purposes.

2. 연속성: 평가 시스템은 지속적이며, 개별 결과는 시스템의 목적에 누적적으로 기여한다.

2. Continuous: The system of assessment is ongoing and individual results contribute cumulatively to the system purposes.

3. 종합성: 평가 시스템은 포괄적이고 효과적이며, 목적에 부합하는 형성적, 진단적, 총괄적 요소로 구성됩니다. 일부 또는 모든 구성 요소는 신뢰할 수 있고 통합적입니다.

3. Comprehensive: The system of assessment is inclusive and effective, consisting of components that are formative, diagnostic, and/or summative as appropriate to its purposes. Some or all components are authentic and integrative.

4. 실현가능성: 평가 시스템과 그 구성요소는 목적, 이해관계자 및 맥락을 고려할 때 실용적이고 현실적이며 효율적이며 합리적입니다.

4. Feasible: The system of assessment and its components are practical, realistic, efficient, and sensible, given the purposes, stakeholders, and context.

5. 목적지향성: 평가 시스템은 그것이 만들어진 목적을 지원한다.

5. Purposes driven: The assessment system supports the purposes for which it was created.

6. 수용가능성: 시스템의 이해관계자는 신뢰할 수 있고 증거 기반인 평가 절차와 결과를 찾습니다.

6. Acceptable: Stakeholders in the system find the assessment process and results to be credible and evidence-based.

7. 투명성, 비편향성: 이해관계자는 시스템의 작동을 이해해야 하며, 의도하지 않은 결과를 최소화해야한다. 결정은 공정하고 공평해야 한다.

7. Transparent and free from bias: Stakeholders understand the workings of the system and its unintended consequences are minimized. Decisions are fair and equitable.

표 5는 보건 직업 교육에서 일반적인 평가 시스템의 예를 제시한다.

Table 5 presents examples of common systems of assessments in health professions education.

일부 평가 시스템은 특정 유형의 '다면적 의사결정'을 위해 종종 다른 정보들과 결합되는 일련의 평가로 구성된 것으로 볼 수도 있다. 입학 및 면허 시스템은 좋은 예이다.

Some systems of assessment can reasonably be viewed as consisting of a series of assessments, often coupled with other information, for making certain kinds of multi-faceted decisions. Admissions and Licensure systems provide good examples.

다른 평가 시스템은 일종의 교육적 개입으로 간주되며, 프로그레스 테스트와 프로그램 평가가 좋은 예이다.

Other systems of assessment are best thought of as educational interventions; Progress Testing and Programmatic Assessment provide good examples.

평가 시스템 구현 시 고려 사항

Considerations in implementation of systems of assessment

의료 분야의 평가 시스템에 대한 사례가 많지만, 개념은 잘 이해되지 않고 구현이 어려울 수 있습니다.

While the case for systems of assessment in the health professions is strong, the concept is often not well understood, and implementation can be challenging.

정의는 모든 참가자(규제자, 후보자, 교사 및 평가자)에게 명확하고 접근가능해야 하며, 그래야 혼란 또는 오해의 범위를 줄여준다. 평가 시스템은 단순히 시간 경과에 따른 점수를 결합하여 결정을 내리는 것 이상의 것입니다. 

Definitions need to be clear and accessible to all the participants (regulators, candidates, teachers, and assessors); this reduces the scope for confusion or misinterpretation. Systems of assessment are more than just combining scores over time to make a decision, for example, that enough has been achieved to “pass”.

평가시스템의 목적은 해당 시스템이 제공하는 프로그램의 비전/미션과 명확하고 일관되어야 합니다. 교육 환경에서 그러한 목적은 커리큘럼과 학습 성과와 일치해야 한다(예: constructive alignment)(Biggs 2014).

The purposes of the system need to be clear and consistent with the vision/mission of the program it serves. In an educational setting, those purposes also need to be consistent with the curriculum and the learning outcomes (i.e. constructive alignment) (Biggs 2014).

평가 시스템을 위한 프레임워크의 적용은 두 가지 이점을 가질 것이다. 

Application of the framework for systems of assessment will have two benefits; 

첫째는 목적에 대한 적합성이다. 많은 "전통적인" 평가는 쉽게 할 수 있거나, 지금껏 행해졌던 것에 초점을 맞추고, 종종 지식과 임상 기술만을 지나치게 강조하여, 그 결과 "좋은 성과"에 필요한 다른 역량은 희생된다. 교육 프로그램에 적합한 평가 시스템은 임상 실무에서 중요하지만 "측정하기 어려운" 역량을 평가하는 방법을 포함하여 광범위한 학습 성과와 평가 방법을 포함해야 한다. 학습- 및 직장- 기반 포트폴리오에 기반한 평가가 바람직할 수 있다. 예를 들어, 성찰과제, 아침 회진 및 인계, 진료기록 작성, 지역사회 프로젝트 및 프로페셔널 행동에 관련된 평가가 포함된다. 학습자들은 교육프로그램이 "검사"하는 것을 "신경"쓰기 마련이다.

the first is fitness for purpose. Many “traditional” assessments focus on what can be done easily or has always been done, often resulting in an overemphasis on knowledge and clinical skills, at the expense of the other competencies necessary for good performance. Systems of assessment for educational programs should include a broad range of learning outcomes and assessment methods, including those that assess “difficult to measure” competencies important in clinical practice. Often, assessments based on learning- and workplace- based portfolios will be desirable. Examples include assessments related to reflective assignments, morning rounds and hand offs, record keeping, community projects, and professional behaviors. Learners “respect” what programs “inspect”.

또 다른 평가시스템의 이점은 효율성입니다. 고품질 평가는 리소스 집약적이기 때문에 수집된 정보는 값비싼 리소스를 "폐기"해서는 안 됩니다. 많은 평가들은 서로에 대해, 그리고 유사한 후속 평가에 대한 예측도가 높다. 따라서, 이러한 중복성을 염두에 두고 평가 시스템을 설계하면, 평가 수행에 필요한 자원을 줄이고, 평가가 덜 자원 집약적이고 더 실현가능할 것이다.

Another benefit is efficiency. High-quality assessment is resource-intensive, so information gathered should not “waste” expensive resources. Many assessments are highly predictive of each other and of subsequent similar assessments. Consequently, designing the system of assessment with these redundancies in mind should reduce the resources needed to conduct them and make assessment less resource-intensive and more feasible.

개별 평가에서와 마찬가지로, 평가시스템에도 원하는 성과에서부터 유도된 purposeful blueprinting이 필수적입니다. 이는 적절한 방법, 역량 및 학습 결과의 범위를 선택하도록 안내하는 동시에, 직접적으로 목적을 다루도록 함으로써 평가 결과로부터 타당도 추론에 기여한다. 어떤 내용과 스킬을 평가할 때, 모든 평가는 (적절하게 잘 설계된) sample of universe를 기반으로 한다. 잘 구성된 평가 시스템은 추출된 표본과 consistent하며, 그러한 표본을 extend할 수 있다. 예를 들어 교육 환경에서 일군의 학습성과로부터 추출sampled될 수 있는데, 이상적으로는 긴 시간에 걸쳐서 각 성과가 여러 차례 평가될 수 있도록 중복overlapping되는 범위를 가져야 한다.

Purposeful blueprinting driven by the desired outcomes is essential for systems, just as it is for individual assessments. This promotes the validity of inferences from assessment results by guiding the selection of a range of appropriate methods, competencies, and learning outcomes, while ensuring that purposes are directly addressed. All assessments are based on a sample of a universe (preferably well-designed) of content and skills; well-constructed systems of assessment are consistent with and can extend that sampling. For example in an educational setting, competencies might be sampled from across a set of learning outcomes, ideally with overlapping scope so that, over time, most are assessed on several occasions.

개별 평가에 대해서 신중한 선택과 설계 또한 필요하다.

Careful selection and design of individual assessments are also required,

동일한 역량의 서로다른 측면을 목표로 하는 방법을 사용하는 것이 도움이 될 수 있으며, 이 경우 삼각측량을 촉진하고 광범위한 지식, 기술 및 행동적 내용에 대해 효율적인 평가를 촉진할 수 있다(Wilkinson 2007).

The use of methods aimed at different aspects of the same competence can be helpful as it will facilitate triangulation and the efficient assessment of a wide range of knowledge, skills, and behavior content (Wilkinson 2007).

개별 평가의 타이밍과 순서에는 평가시스템의 목적에 관계없이 세심한 계획이 필요하다. 이는 교육 프로그램에서 개별 학생의 학습 궤적을 reflect하도록 설계된 시스템에서 특히 중요하다.

The timing and sequencing of individual assessments requires careful planning regardless of the purposes of the system. This is particularly important for systems designed to reflect the learning trajectories of the individual students in an educational program.

개별 형성평가의 빈도를 늘리면, 소수의 고부담 시험에 의한 압력을 줄일 수는 있지만, 동시에 실현 가능성 문제도 야기할 수 있다. 교육 프로그램에서, 많은 역량이 서로 다른 시간에 그리고 다른 순서로 달성될 수 있으므로, 이 접근방식은 일정정도의 유연성을 허용할 것이다. 또한 학습 속도가 느려지면 재교육 및 추가 자원이 필요할 수 있습니다.

Increasing the frequency of individual formative assessments reduces the pressure created by a small number of high-stakes events, but this can also create feasibility issues. In educational programs, many competencies can be achieved at different times and in different sequences so this approach allows for some flexibility. Further, slower learning might trigger the need for remediation/additional resources.

일부 관찰자는 광범위한 평가 방법의 사용 신뢰성에 미치는 잠재적 영향에 대해 우려하며, 어떤 평가방법은 단독으로 사용될 경우 신뢰성이 낮게 나타날 수 있기 때문이다. 그러나 복수의 방법과 복수의 평가자를 여러 차례에 걸쳐서 사용하면 다양한 attributes를 달성했다는 증거를 제공하기에 충분하다.

Some observers are concerned about the potential impact on reliability of using the broader range of assessment methods, some of which, when used alone, demonstrate lower reliability. The use of multiple methods and multiple judges on multiple occasions is sufficient to provide evidence for the achievement across a range of attributes.

총괄적 결정이 필요한 경우, 기준 설정은 복잡할 수 있으며, 개별 평가의 aggregated된 결과에 기초하여 종합적인 결정을 내리는 다양한 방법이 필요할 수 있다. 수많은 평가(예: 교육 프로그램의 일부로서)가 있을 때, 이러한 결정을 순전히 양적 및 기계적 방식으로 결합하는 것은 어려운 일일 뿐만 아니라, 만족스러운 결과를 내지 못할 수 있다. 이 전략은 특정 평가가 중요함에도 불구하고 전체적인 의사결정에 대한 기여도가 낮다는 이유로 경시하는 결과를 유발 할 수 있다.

Where summative decisions are needed, standard setting may be complex and require a variety of methods to make an overall decision based on the aggregated results of individual assessments. Combining these decisions in a purely quantitative and mechanical way, especially when there are numerous assessments (e.g. as part of an educational program), is challenging and may not yield a satisfactory outcome. This strategy may also trivialize important individual assessments when they contribute less to an overall decision.

시스템의 목적에 맞는 경우 일련의 비보상적 결정을 내리는 것이 합리적일 수 있습니다. 결론을 내릴 때 모든 측정 정보를 가장 잘 고려하는 위원회 판단 절차를 마지막으로 사용하는 것이 적절할 수 있습니다. 

Where it fits the purposes of the system, it may be reasonable to make a series of non-compensatory decisions, . Finally use of a committee judgment process, which takes all of the measurement information into account in coming to a conclusion, may be the best alternative. 

일부 평가 시스템에서는 개별 측정은 형성평가와 총괄평가 목적 모두에 대해 사용된다. 이렇게 할 경우, 효율성이 향상될 수 있고 , 평가 결과를 바탕으로 피드백도 제공하고 의사 결정을 내리는 데에도 도움을 받을 수 있을 것이다. 그러나 이중적인 목적은 조심스럽게 다뤄져야 한다. 형성적 목적을 위해 설계된 평가는 종종 총괄적 목적에 적합하지 않은 특성을 가지고 있다.

In some systems of assessment, individual measures are used for both formative and summative purposes. This contributes to improved efficiency, potentially making assessments helpful in both, providing feedback and making decisions. However, we believe this dual purpose needs to be handled cautiously. Assessments designed for formative purposes often have characteristics that make them less than ideal for the summative purposes and vice versa.

이 문제에 대한 한 가지 접근법은 [피드백을 제공하는 개별 교수진]과 [별도로 평가 결과에 따라 의사결정을 담당하는 위원회]를 만드는 것이다. 위원회의 구성원들은 학생들에게 가까이 있는 사람들이 아니며, 가르치고 피드백을 주는 사람들은 총괄적 결정을 내리지 않는다.

one approach to this challenge is to create a committee that is responsible for making decisions based on assessment results, separately from individual faculty providing feedback. Members of the committee are not those who are close to the students along the way and those who teach and give feedback do not make decisions.

Recommendations for future work

   프레임워크의 adaptability가 기술과 인공지능(AI)에 미치는 영향

   평가 방법의 비용 및 ROI

   교육 및 의료 시스템과 평가의 상호작용

   이 프레임워크와 문헌에 보고된 다른 프레임워크 사이의 관계(예: Michie et al. 2011)

   The adaptability of the frameworks to technology and artificial intelligence (AI)

   The costs and the return on investment of assessment methods

   The interaction of assessments with educational and health care systems

   The relationship between these frameworks and others reported in the literature (for example Michie et al. 2011).


평가 시스템의 경우 고려해야 할 몇 가지 추가 요소 또는 최소한 몇 가지 추가 측면이 있다. 이는 개별 평가의 구현과 달리, [표본 추출, 타이밍 및 의사결정, 서로 다른 출처의 다른 종류의 정보를 결합하는 방법, 진급결정이 이루어지는 방법]과 관련이 있다.

For systems of assessment there are some additional elements, or at least some additional aspects, that should be considered. These relate not so much to the way individual assessment episodes are implemented, but more to the sampling, timing and decision-making, the means of combining different kinds of information from different sources, and how progression decisions are made.

In 2010, the Ottawa Conference produced a set of consensus criteria for good assessment. These were well received and since then the working group monitored their use. As part of the 2010 report, it was recommended that consideration be given in the future to preparing similar criteria for systems of assessment. Recent developments in the field suggest that it would be timely to undertake that task and so the working group was reconvened, with changes in membership to reflect broad global representation.


Consideration was given to whether the initially proposed criteria continued to be appropriate for single assessments and the group believed that they were. Consequently, we reiterate the criteria that apply to individual assessments and duplicate relevant portions of the 2010 report.


This paper also presents a new set of criteria that apply to systems of assessment and, recognizing the challenges of implementation, offers several issues for further consideration. Among these issues are the increasing diversity of candidates and programs, the importance of legal defensibility in high stakes assessments, globalization and the interest in portable recognition of medical training, and the interest among employers and patients in how medical education is delivered and how progression decisions are made.


포트폴리오에 미래가 있는가?(Adv in Health Sci Educ, 2017)

Do portfolios have a future?

Erik Driessen1

포트폴리오에 미래가 있는가?

Do portfolios have a future?

포트폴리오에 대한 이러한 세계적인 돌풍이 미래의 성공으로까지 이어질 것인가?

will this global rush on portfolios perpetuate their presumed success in the future?

포트폴리오 미래 질문은 역량 기반 교육, 성찰, 평가라는 더 큰 주제에 접근할 수 있도록 해줍니다.

The portfolio future question enables me to approach some bigger topics: competency-based education, reflection and assessment.

• 교육자들이 좋아하는 포트폴리오가 왜 학생과 교사들의 그러한 저항에 맞닥뜨리는가?

• Why do portfolios meet with such resistance from students and teachers, while educators love them?

• 학생들에게 성찰하게 하고, 그들의 성찰을 평가하는 것은 윤리적인가?

• Is it ethical to require students to reflect and then grade their reflections?; and

• 역량 기반 교육이 근무지 기반의 학습에서 학습자에게 힘을 실어 줍니까, 방해가 됩니까?

• Does competency-based education empower or hamper the learner during workplace-based learning?

다양한 종류의 포트폴리오

Different variations of a portfolio

포트폴리오를 계획할 때 무엇을 생각하십니까? 사실 포트폴리오의 형태와 용도가 너무 다르기 때문에 이에 대해 일반적인 발언을 하는 것은 거의 불가능하다. 그러나 이들의 다양한 변화에도 불구하고, 우리는 두 가지 중요한 유형, 특히 성찰형 포트폴리오포괄적 포트폴리오를 구별할 수 있다(Roberts et al. 2014).

What do you see when you envision a portfolio? Portfolios in fact differ so much in their form and use that it is almost impossible to make general statements about them. Despite their many variations, however, we can distinguish two overarching types, specifically the reflective portfolio and the comprehensive portfolio (Roberts et al. 2014).

성찰형 포트폴리오의 생존가능성은 낮다고 생각하나, 포괄적 포트폴리오에서는 가능성을 보고 있다.

It is for comprehensive portfolios that I do see potential, although I am less convinced of the viability of reflective portfolios.

1. 성찰형 포트폴리오

Reflective portfolios

성찰형 포트폴리오는 주로 성찰기술의 개발을 목표로 한다. 그것은 학생들이 그들의 학습이나 직업에서 중요하다고 생각되는 측면에 대한 성찰을 쓰도록 요구한다.

The reflective portfolio is largely aimed at the development of reflective skills. It requires students to write up a reflection on an aspect that is considered important to their learning or profession.

Maastricht의 1학년 학생들은, 자신이 받은 평가 피드백을 바탕으로 네 가지 역할을 성찰한다(Driessen et al. 2003). Roberts et al. (2014)는 이러한 유형의 포트폴리오를 언급하기 위해 '형성적 포트폴리오'라는 용어를 사용하지만, 이것은 혼란스럽다고 생각합니다.

first-year students in Maastricht to reflect on four roles based on the assessment feedback they received (Driessen et al. 2003). While Roberts et al. (2014) use the term formative portfolio to refer to this type of portfolio, in my view this is confusing:

형성평가와 총괄평가를 구분하는 것을 더 좋아하지 않는 이유는 이러한 구분이 첫눈에 보는 것보다 덜 명확하기 때문이다. 이 주제에 대한 비판적 관점을 위해 나는 Man Sze Lau의 "형성평가는 좋고 총괄평가는 나쁜가"라는 논문을 참조한다. 따라서 본 논문의 목적상 성찰형 포트폴리오라는 "성찰에 주된 초점을 두는 포트폴리오로서, 그 포트폴리오는 그 자체로 존재하거나, 기존 과목에 추가되는 것일 수 있다"

reason why I prefer not to distinguish between formative and summative assessment is because this distinction is less clear than one would think at first sight. For a critical perspective on this topic I refer to Man Sze Lau’s ‘‘Formative is good, summative is bad’’ paper (2015). Hence, for the purpose of this paper the term reflective portfolios refers to portfolios with a strong focus on reflection that are either self-contained or an addition to an existing course.

2. 포괄적 포트폴리오

Comprehensive portfolios

포괄적 포트폴리오는 커리큘럼에 통합된다. 즉, 평가 프로그램의 일부를 구성한다(Eva et al. 2015; van der Vleuten et al. 2012). 예를 들어, 학부 실습전 평가 프로그램(Daneffer 및 Henson 2007) 또는 국가단위 졸업후 역량바탕 평가 프로그램(Munen-van Loon et al. 2013) 등이 될 수 있다.

Comprehensive portfolios are integrated into the curriculum, i.e., they form part of an assessment program (Eva et al. 2015; van der Vleuten et al. 2012). This can be an undergraduate preclinical assessment program (Daneffer and Henson 2007) or a national postgraduate competency-based assessment program (Moonen-van Loon et al. 2013), for example.

이러한 프로그램에서 포트폴리오는 프로그램의 목적을 실현하기 위해 다른 도구들과 함께 사용된다. 포트폴리오는 다른 (평가)도구에서 생성된 모든 정보를 종합한다. 포괄적인 포트폴리오의 목표는 두 가지이다. 하나는 학생들의 학습 과정을 서포트하는 것이며, 다른 하나는 학생들의 진척도를 평가하는 것이다. 포괄적 포트폴리오에는 성찰이 포함될 수 있지만, 그 내용은 성찰적 포트폴리오보다 훨씬 더 다양하다

In these programs the portfolio is used in combination with other instruments to realize the program’s purpose. The portfolio brings together all the information that the other instruments have generated. The goal of comprehensive portfolios is twofold: to support the student’s learning process and to assess the student’s progress. Comprehensive portfolios can contain reflections, but their content is much more diverse than that of reflective portfolios.

대중과의 관계

Public relations

포트폴리오의 소멸을 막기 위해 우리가 다루어야 할 가장 중요한 문제는 포트폴리오에 대한 '나쁜 평판'이다. 지난 20년간은 포트폴리오는 "행복한 포트폴리오 개발자들과 짜증내는 포트폴리오 사용자들"로 특징지어져 왔다.

The most important issue we must address to prevent portfolio’s demise is its bad reputation. The last two decades have been characterized by happy portfolio developers and grumpy portfolio users.

과학자들은 수년 동안 이러한 저항의 이유를 조사하기 위해 노력했다(Driessen et al. 2007. 우리는 포트폴리오가 그 자체만으로는 작동하지 않는다는 것을 발견했다. 포트폴리오의 중요한 특성은 취약성이다. 포트폴리오의 이러한 특성으로 인하여, 포트폴리오는 멘토링, 개방형 구조, 학습 환경 지원, 사용자에 대한 직접적 학습 이익 등과 같은 다수의 조건이 충족된 경우에만 작동합니다(Driessen et al., 2005).

Scientists, have sought to investigate this resistance for many years (Driessen et al. 2007). We found that portfolios do not work by themselves. An important characteristic of portfolios is their vulnerability: they only work if several conditions have been fulfilled, e.g., mentoring, open structure, supporting learning environment and a direct learning gain for their users (Driessen et al. 2005).

성찰형 포트폴리오의 경우, 후자의 조건은 충족하기가 거의 불가능해 보인다. 많은 학생들은 성찰을 학습 전략으로 여기지 않는데, 특히 포트폴리오 작성시 인위적이고 고정된 형식을 사용하도록 강요당하고, 이러한 성찰의 결과를 바탕으로 학습의 방향을 잡아줄direct 기회가 거의 없을 때 특히 그렇다. 대부분의 전임상 학습은 틀이 정해져 있으며, 학생들이 자신의 학습 요구에 맞게 환경을 조정할 수 있는 유연성이 적다. 이 모든 것은 학생과 교사가 성찰형 포트폴리오에 불만을 갖게하고, 결과적으로 동기부여와 참여가 낮아지게 된다. (안필드 외 2015) 결과적으로, 학생과 교사는 포트폴리오를 그저 또 하나의 해야 할 과제로 여긴다. 그러므로, 나는 성찰형 포트폴리오가 미래의 방향이라고 생각하지 않으며, 무엇보다 학생들로 하여금 성찰하게 하고, 그 성찰을 평가하는 경우에 특히 그러하다.

In the case of reflective portfolios this latter condition appears almost impossible to satisfy. Many students do not value reflection as a learning strategy, especially not when they are forced to use an artificial and fixed format and they have little opportunity to direct their learning as a result of these reflections. Most preclinical learning is structured and there is limited flexibility to adapt the environment to the student’s learning needs. All this causes students and teachers to be unsatisfied with their reflective portfolio, and, consequently, to become less motivated and engaged (Arntfield et al. 2015). As a result, they regard portfolios as just another assignment they have to do. Therefore, I do not believe that reflective portfolios are the way of the future, especially not when considering the problems involved in requiring students to reflect and assessing these reflections.



의무적인 반성만큼 의사와 의대생을 자극하는 것은 거의 없는 것 같다. (Tomlinson 2015)

Few things seem to irritate doctors and medical students so much as mandatory reflection. (Tomlinson 2015)

반영은 가치 있는 능력이지만, 역량 기반 교육에서도 인기 있는 학습 방법이 되었습니다. 역량 기반 학습의 첫 도입부터 학생들과 주민들은 훈련과 평가 프로그램의 일환으로 의무적인 반성을 강하게 거부했다.

While reflection is a valuable competence, it has also become a popular learning method in competency-based education. From the first introduction of competency-based learning students and residents fiercely resisted mandatory reflection as part of their training and assessment program.

Brian Hodges는 "['책무성'이라는 담론으로 인한 고부담 외부 시험]과 (등장은 더 늦었지만 절대 덜 열성적이지 않은) ['자기-주도'와 '성찰'이라는 내부적 동기부여] 사이에 긴장이 고조되고 있다며 우려하였다. 성찰을 평가와 혼합하면 성찰은 고해성사가 된다. 즉, 학생은 고해성사를 하고, 외부의 '판사'가 "학생이 수행한 성찰의 정확성과 객관성을 제시하고 다듬는"것이다. 학생들이 성찰적 포트폴리오에 개인적인 감정을 밝혀야 하고, 알려지지 않은 평가자에 의해 이러한 감정들을 평가받도록 강요하는 것은 얼마나 해로운가? (Ghaye 2007)

Brian Hodges, worries about ‘‘the growing tension between high stakes external examinations driven by a discourse of ‘accountability’ and a more recent, but no less passionate, investment in internally motived notions of ‘self-direction’ and ‘reflection’’’ (Hodges 2015, p. 261). Mixing reflection with assessment leads, to reflection as confession: the student reflects (confesses) and an external judge (confessor) ‘‘guides and shapes the accuracy and objectivity of the student’s reflection.’’ How harmful is it to force students to disclose personal feelings in their reflective portfolios and have these feelings assessed by a sometimes unknown assessor? (Ghaye 2007)

나는 의학 교육에서 성찰을 활용하는 것에 장점이 있다고 확신한다. Dewey가 성찰을 정의내릴 때 "당신의 미래 행동이 "행동과 신념과 그것을 뒷받침하는 가정에 대한 체계적이고 비판적인 평가와 분석"에 의해 인도될 수 있도록 하는 것"이라고 말한 것을 지지한다. (Driessen et al. 2008. 827).

I am convinced that reflection in medical education has merits. I endorsed Dewey’s definition of reflection as letting ‘‘your future behavior be guided by systematic and critical evaluation and analysis of actions and beliefs and the assumptions that underlie them’’ (Driessen et al. 2008, p. 827).

나는 또한 "성찰은 비판적사회적탐구가 되어야 하며, 사회적 및 시스템적 권력, 사고과정과 권력관계에 내포된 가정에 더 명확한 관심을 가져야 하며, 이를 통해 변화와 행동을 이끌어야 한다"는 Ng 등의 주장에 동의한다.

I also subscribe to Ng et al.’s assertion that reflection should more be seen as a critical social inquiry, requiring ‘‘more explicit attention to social and systemic forces, and the assumptions embedded in thought processes and power relations, with an aim toward transformation and action’’ (Ng et al. 2015, p. 465).

요컨대, 성찰은 나를 딜레마에 빠지게 한다: 나는 배우고 연습하는 것이 중요하다는 것을 알지만, 나는 또한 이미 짜여진 구조에서 이뤄지는 의무적인 성찰에 대한 의구심을 갖고 있다. 아마도 [안전하고 개방적인 환경에서, 신뢰받는 사람과 나누는 성찰적 대화]를 강조하는 학습환경과 포트폴리오가 앞으로 나가가야 할 길일 것이다. 하지만, 이런 환경을 조성하기에는 의학 교육이 갈 길이 멀다.

In sum, reflection places me in a dilemma: while I recognize its importance to learning and practice, I also seriously doubt mandatory pre-structured reflection. A learning environment and a portfolio that values a reflective dialogue with a trusted person in an open and safe way, is probably the way to go. However, it is a long road for medical education to create such an environment.

병원의 카프카

Kafka at the hospital

GME에서 교육자들이 역량 기반 교육에 처음 집중했을 때, 저는 교육자들이 평가 도구를 찾는 데 급급했던 모습을 기억합니다. 저는 그 교육자로 하여금, 잠시 생각을 멈추고 그들이 평가하려고 계획하고 있는 역량을 어떻게 가르칠지에 대해 생각해보게 만들기 위해 온갖 노력을 해야만 했습니다. (오설리번 논평 2015 페이지 277)

When educators in graduate medical education first focused on competency-based education, I remember a rush to find assessment instruments. I struggled to have those same educators pause long enough to think about how they would teach the competencies they planned to assess. (O’Sullivan Commentary 2015, p. 277)

역량 기반 학습 포트폴리오는 많은 양의 세부적인 성과, 역량, EPA, 이정표를 기록하는 도구가 되었다. 훈련 기간이 끝날 때쯤 학생들은 그들이 모든 요구조건을 충족시켰다는 것을 증명해야 하고, 선생님들은 이것을 점검해야 한다. 늘 시간이 부족한 임상에서는 가르치기에도 부족한 그 시간 내에 (피드백과 학습에 대해 토론하는 대신) 포트폴리오를 체크하기도 해야 한다. 이런 식으로 포트폴리오들은 직장에서 우리의 학습자들을 empower하는 대신에, 관료적 행위로 퇴보한다.

In competency-based learning portfolios have become instruments for the recording of large quantities of detailed outcomes, competencies, entrustable professional activities and milestones. At the end of the training period students have to prove that they have met all the requirements and their teachers have to check this. In time-scarce clinical practice the limited time for teaching is used for checking portfolio checklists instead of discussing feedback and learning. In this way portfolios degenerate into bureaucratic exercises instead of empowering our learners in the workplace.

생각을 위한 음식

Food for thought

모든 학생들, 레지던트, 의사, 기타 의료 종사자들은 역량 기반 커리큘럼에서 포트폴리오를 compile하는 방식을 채택했다. 그러나, 그들은 종종 성찰형 포트폴리오에서 얻는 이득이 거의 없음을 깨달았으며, 학자들은 성찰형 포트폴리오에서 성찰을 의무화하는 것의 윤리성에 의문을 제기한다. 학생들, 레지던트들, 교사들, 학자들은 모두 역량 기반 교육에서 포괄적 포트폴리오의 구현을 둘러싼 관료주의를 비난한다.

On all continents students, residents, physicians and other health care workers have adopted the practice of compiling a portfolio in their competency-based curricula. Yet, they often perceive little gain from their reflective portfolios, while scholars question the ethics of obligatory reflection in reflective portfolios. Students, residents, teachers and scholars alike condemn the bureaucracy surrounding the implementation of comprehensive portfolios in competency-based education.

해결책은 무엇인가?

Is there a way out?

의학교육에서 포트폴리오의 선구자들이 [포트폴리오 평가] 대신 [포트폴리오 학습] 또는 [포트폴리오 기반 학습]을 말하고 있으며(Snaddden et al. 1996; Snadden and Thomas 1998), 포트폴리오를 "학습자와 관리자의 상호작용을 통해 [토론 및] 추가 학습을 유도하기 위한 촉매 역할을 하는 시스템"으로 정의하였다 (Snaddden et al. 1996, 페이지 148). 따라서, 가장 바람직하게는, 포트폴리오는 학습자와 멘토에게 "생각을 위한 음식"을 제공하는데, 포괄적 포트폴리오의 경우 학습과 과거의 성과에 대한 정보와 피드백을 풍부하게 제공할 수 있으며, 여기에 학습자의 의도와 계획에 대한 학습자의 관점이 더해지게 된다. 이러한 자료는 학습자와 멘토 사이에 퍼포먼스, reassurance, 향후 학습 및 실습 지침에 대한 대화를 가능하게 만든다(Tunissen 및 Eppich).

It is with good reason that the portfolio pioneers in medical education spoke of portfolio learning or portfolio-based learning instead of portfolio assessment (Snadden et al. 1996; Snadden and Thomas 1998) and defined portfolio as a ‘‘system [that] operates …through the interaction of a learner and supervisor using the material as a catalyst to guide [discussion and] further learning’’ (Snadden et al. 1996, p. 148). Hence, portfolios at best provide learners and their mentors with food for thought, which in the case of comprehensive portfolios can be especially rich, with information and feedback on learning and past performance, the learner’s perspective on this combined with the learner’s intentions and plans for the coming period. These materials can feed the conversations between learners and mentors about performance, reassurance, and directing future learning and practice (Teunissen and Eppich in press).

문제의 근본 원인은 이것이다

the root cause of the problem,

우리는 배움에 관심을 기울이지 않는다; 우리는 이상적인 경우에만 모든 학습자들이 멘토링을 받을 수 있는 멘토의 시간을 보장한다. 이것은 정당하지 못하다. 왜냐하면 멘토링은 우리의 의학 교육 도구 상자에서 이용 가능한 가장 강력한 학습 방법일 것이기 때문이다.

we pay no heed to learning; only in the ideal world do we ensure mentor time for every learner. This is unjust, for mentoring is likely the most powerful learning method available in our medical education toolbox (Driessen and Overeem2013).

25년 간의 포트폴리오가 드디어 그 이야기를 명확히 드러내고 있습니다. 멘토링 없이는 포트폴리오에 미래가 없으며, 우리의 역량바탕교육 프로그램을 방해하는 관료적 장애물에 그칠 것이다. 

  • 우리는 학습자들에게 우리 자신을 헌신합시다. 

  • 학습자와 멘토 간의 토론을 guiding하고, 학습을 지원하는 포트폴리오를 구축합시다. 

  • 학생들에게는 포트폴리오 데이터를 바탕으로 학생의 경험을 파악하고, 개선 계획을 수립할 수 있도록 도와주는 멘토들을 제공합시다(Eva et al. 2015). 

  • 포트폴리오를 환자 차트처럼 사용합시다. 차트는 의사와 환자에게 웰빙과 치료에 대해 논의할 수 있는 매우 유용한 정보를 제공한다. 

  • 포트폴리오가 학습자 차트가 되게 하여, 그것이 '학습 궤적'을 포괄적 기록이 되도록 하자. 이 포괄적 기록은 학습자와 멘토가 상호 신뢰하는 관계 속에서 학습을 촉진하기 위하여 의미 있는 대화를 나눔으로써 더 잘 돌아갈 것이다.

프로그래램 방식 평가에 대한 최근의 요구는 그러한 학습 차트 없이는 성공할 수 없다(van der Vleuten et al. 2012; Driessen et al. 2012).

Twenty-five years of portfolio reveal a clear story: without mentoring, portfolios have no future and are nothing short of bureaucratic hurdles in our competency-based education programs. 

  • Let us therefore commit ourselves to our learners. 

  • Let us establish a portfolio that supports learning by guiding the discussion between the learner and the mentor. 

  • Let us provide them with mentors who help them to use the portfolio data to make sense of their experiences and frame plans for improvement (Eva et al. 2015). 

  • Let us use the portfolio just as the patient chart. It provides doctor and patient with very useful information to discuss well-being and treatment. 

  • Let it also be a learner chart that comprehensively documents progress in a learning trajectory which is lubricated by meaningful dialogue between learner and mentor in a trusting relationship to foster learning. 

Recent calls for programmatic assessment cannot succeed without such a learning chart (van der Vleuten et al. 2012; Driessen et al. 2012).

Eva, K. W., Bordage, G., Campbel, G., Galbraith, R., Ginsburg, S., Holmboe, E., & Regehr, G. (2015). Towards a program of assessment for health professionals: From training into practice. Advances in Health Sciences Education,. doi:10.1007/s10459-015-9653-6.

Man Sze Lau, A. (2015). ‘Formative good, summative bad?’A review of the dichotomy in assessment literature. Journal of Further and Higher Education,. doi:10.1080/0309877X.2014.984600.

O’Sullivan, P. S. (2015). What’s in a learning environment? Recognizing teachers’ roles in shaping a learning environment to support competency. Perspectives on Medical Education, 4, 277–279.

While portfolios have seen an unprecedented surge in popularity, they have also become the subject of controversy: learners often perceive little gain from writing reflections as part of their portfolios; scholars question the ethics of such obligatory reflection; and students, residents, teachers and scholars alike condemn the bureaucracy surrounding portfolio implementation in competency-based education. It could be argued that mass adoption without careful attention to purpose and format may well jeopardize portfolios' viability in health sciences education. This paper explores this proposition by addressing the following three main questions: (1) Why do portfolios meet with such resistance from students and teachers, while educators love them?; (2) Is it ethical to require students to reflect and then grade their reflections?; (3) Does competency-based education empower or hamper the learner during workplace-based learning? Twenty-five years of portfolio reveal a clear story: without mentoring, portfolios have no future and are nothing short of bureaucratic hurdles in our competency-based education programs. Moreover, comprehensive portfolios, which are integrated into the curriculum and much more diverse in content than reflective portfolios, can serve as meaningful patient charts, providing doctor and patient with useful information to discuss well-being and treatment. In this sense, portfolios are also learner charts that comprehensively document progress in a learning trajectory which is lubricated by meaningful dialogue between learner and mentor in a trusting relationship to foster learning. If we are able to make such comprehensive and meaningful use of portfolios, then, yes, portfolios do have a bright future in medical education.


Assessment; Competency-based education; Medical education; Portfolio; Reflection

[Indexed for MEDLINE] 
Free PMC Article

의학교육에서 포트폴리오: 왜 성공여부가 다양한가? 체계적 문헌고찰 (Med Educ, 2007)

Portfolios in medical education: why do they meet with mixed success? A systematic review





CBME의 어려움은 통합되고, 일관성 있고, 종단적으로 역량 개발을 formative하게 지원하는 도구를 찾고, 역량이 달성되었는지를 summative하게 평가하는 것이다. 포트폴리오는 그러한 도구이다.

The challenge has been to find instruments that formatively support the development of competence in an integrated, coherent and longitudinal fashion and summatively assess whether competence is being achieved.4,5 The portfolio is acclaimed as such an instrument.6

컨텐츠와 포맷의 다양함에도 불구하고 포트폴리오들은 기본적으로 완료된 작업, 피드백, 진행 상황, 역량 향상 계획에 대해 보고한다. 또한 포트폴리오는 성찰을 자극할 수 있는데, 포트폴리오에 포함하기 위한 증거를 수집하려면 과거로 돌아보고 자신이 이룬 것을 분석해야 하기 때문이다.

Despite variations in content and format, portfolios basically report on work done, feedback received, progress made, and plans for improving competence. Additionally, portfolios may stimulate reflection, because collecting evidence for inclusion in a portfolio requires looking back and analysing what one has accomplished.

성찰은 경험, 문제, 기존 지식을 구조화하거나 재구조화하려는 정신적인 과정으로 정의할 수 있습니다.15 이는 학습자가 자신의 발달을 이해하고 학습 계획을 세우는 데 도움이 될 수 있다.15 직무 수행과 역량 개발을 성찰하려면 자기평가를 해야 한다. 즉 학습자는 자신의 성과를 (외부) 표준과 비교해야 한다.

Reflection can be defined as the mental process of trying to structure or restructure an experience, a problem, or existing knowledge.15 This can help learners to understand their development16 and plan their learning.15 Reflecting on task performance and development of competence implies self-assessment or self-rating:17 learners have to compare their own performance with (external) standards.



Data sources

Selection of studies

We excluded studies concerning: portfolios for other health professions (nursing, dentistry, dietetics, veterinary medicine), administrators, managers, teachers and trainers in hospitals, management, finance, education, teaching, specialist trainers and academic portfolios; portfolio-related instruments, such as logbooks, personal digital assistants, and personal development plans, and descriptive articles without evaluative data.

Data abstraction


Search results

이러한 연구들 중 많은 것들이 방법론적 한계를 가지고 있었다. 2개의 연구를 제외하고, 21,28개의 모두 단일 그룹 설계를 가지고 있었다. 대다수는 하나의 기관에서 행해졌다. 5가지 연구에서 참여자들은 스스로 선택된 자원한 참가자였다.20,28–31 많은 연구는 포트폴리오의 도입 방법, 표본 추출 프레임, 연구 방법, 데이터 분석 또는 결과에 대한 상세한 설명이 부족했고, 이로 인해 연구의 질을 평가하기 어려웠으며, 결과를 일반화하기 어려웠다

Many of these studies had methodological limitations. With the exception of 2 studies,21,28 all had a single-group design. The majority were conducted in a single institution. In 5 studies, participants were self-selected volunteers.20,28–31 Many studies lacked a detailed description of the portfolio, how it was introduced to its users, the sampling frame, the study method, data analysis or outcomes, which limited our ability to fully appraise the quality of the study or generalise the findings.

목적1. 학습

Goal 1. Learning

전임상 단계에서 수행한 두 가지 연구는 포트폴리오가 1학년 학생들의 성찰 학습에 기여했다고 보고했고, 한 연구는 포트폴리오가 학생들의 개인적, 직업적 발전에 기여했다고 보고했다. 두 개의 연구는 임상 전 종양학 프로그램을 조직, 모니터링 및 평가하고 학생들이 악성 질병이 환자에게 미치는 영향을 이해하는 데 도움이 되는 포트폴리오의 성공적인 사용을 보고했습니다. CME에서 포트폴리오가 사용된 연구는 복합적인 결과를 낳았다. 일부에서는 포트폴리오가 성찰 학습을 촉진하고 CME의 계획과 모니터링을 지원한다고 보고하였다.

Two studies performed in the pre-clinical phase of medical school reported that portfolios contributed to Year 1 students  reflective learning32,33 and 1 study reported that portfolios contributed to students  personal and professional development.22 Two studies reported successful use of portfolios in organising, monitoring and evaluating a pre-clinical oncology programme and helping students understand the impact of malignant disease on patients.21,34 Studies where portfolios were used in CME yielded mixed results. Some reported that portfolios could stimulate reflective learning28,30 and support the planning and monitoring of CME.30

다양한 맥락에 걸친 많은 연구는 기관의 포트폴리오 준비 및 도입에 관한 문제점을 보고했다. 이것의 예는 포트폴리오의 목적이 명확하게 정의되지 않았거나 학습자와 교사들이 포트폴리오와 그것이 포함하고 있는 것에 대해 불충분하게 알고 있었다고 주장했다.35–38 한 연구에서 레지던트와 트레이너 모두의 불충분한 헌신이 포트폴리오의 제한된 사용으로 이어졌다.35 그러나 포트폴리오 설계가 트레이너와 트레이너 모두의 informing, training, gaining commitment에 초점을 맞춘 5개 연구에서는 포트폴리오가 대학원 교육에 적합한 것으로 확인되었다.39–43 한 연구는 포트폴리오의 목적과 절차에 대한 staff의 적절한 브리핑과 함께 실제 도입되었으며, 이는 포트폴리오 점수와 학생 만족도에 긍정적인 영향을 미쳤다.

Many studies across a range of contexts reported problems related to the poor preparation and introduction of portfolios by the institution. Examples of this claimed either that the purpose of the portfolio was not clearly defined35 or that learners and teachers were poorly or insufficiently informed about the portfolio and what it entailed.35–38 In 1 study this resulted in poor commitment from both residents and their trainers and limited use of the portfolio.35 However, in 5 studies where portfolio design centred on informing, training and gaining commitment from both trainers and trainees, portfolios were found to be suitable for graduate training.39–43 One study demonstrated that hands-on introduction with a proper briefing of students by staff on the portfolio s purpose and procedures had a positive effect on portfolio scores and student satisfaction with the portfolio.44

포트폴리오의 사용은 포트폴리오가 단독으로 사용되지 않고 다른 교육 활동의 일부였을 때 더 성공적이었다. 이러한 교육 활동에는 학생들을 종양 환자와 짝짓기, 튜토리얼 그룹 구성 또는 멘토링, 인터뷰 링크 등이 포함됩니다.

The use of the portfolio in undergraduate education was more successful when portfolios were not used in isolation but were part of other educational activities.21,22,32,34 These educational activities included pairing students with oncology patients,21,34 organising tutorial groups35 or mentoring,32 or linkage to an interview.22

CME에서 포트폴리오의 사용 결과를 보면, 종종 최대한의 잠재력을 활용해내지 못함을 암시했다. 이는 주로 과중한 업무부하에 의한 시간 제약20,31과 포트폴리오 유지에 시간이 많이 소요된다는 인식과 관련이 있었다.20,28,45 때때로 외부적인 요인도 문제의 원인이 되었는데, 여기에는 IT 기술 부족 문제(예: 소프트웨어 다운로드에 필요한 IT 기술 부족)등이 있다. 졸업후교육에서는 시간 부족이 한 가지 이슈이다. 연수생과 그 감독자들은 포트폴리오가 너무 시간이 많이 소요되어 사용을 기피할 수 있다고 우려했다. 매더스 등은 실현가능성을 돕기 위해 포트폴리오가 더 똑똑해져야 한다고 호소했다(서류작업이 줄어야). 이러한 효율적인 포트폴리오의 사용을 조사하는 연구는 학부 임상실습생들은 포트폴리오가 노동집약적이다고 생각하지 않았다는 점에서 이러한 가정을 뒷받침한다.

Results of the use of portfolios in CME often suggested that portfolios were not used by doctors to their full potential. This was related mainly to time constraints imposed by high daily workloads20,31 and the perception that maintaining the portfolio was time-consuming.20,28,45 On occasion, studies referred to extraneous issues, including difficulties with information technology, such as problems with downloading necessary software20 or lack of IT skills.31 Lack of time was also an issue for postgraduate training.38,41,46 Trainees and their supervisors were concerned that the portfolio might be too time-intensive and for this reason avoided using it.38,41,46 Mathers et al. made a plea for portfolios to be  smarter  (less paperwork) to aid feasibility.28 A study investigating the use of such an efficient portfolio supports this supposition, as undergraduate clerks did not find the portfolio labour-intensive.47

포트폴리오의 형식은 또한 학습에 기여한 것에 영향을 주었다. 효과적인 포트폴리오는 학습자가 자신만의 고유한 개발을 설명할 수 있는 기회를 제공하는 명확하면서 동시에 유연한 구조를 가지고 있습니다.32,35,48 명확한 지침이 중요했습니다. 대부분의 사용자는 자신이 어떤 종류의 정보를 넣어야 하는지 알고 싶어했다. 흔히 포트폴리오의 내용이 자주 규정되는 임상적 맥락에서, 포트폴리오는 관료적 도구로서 경험되었다. 학습자가 자신의 컨텐츠를 결정할 수 있는 일정량의 자유를 얻었을 때 포트폴리오에 대해 더 긍정적으로 평가하였다.

The format of the portfolio also influenced the contribution it made to learning. An effective portfolio had a clear but flexible structure, allowing learners opportunities to describe their own unique development.32,35,48 Clear instructions were important. Most users wanted to know what kind of information they were expected to provide.29,44,49 In clinical contexts where the content of a portfolio was often highly prescribed, portfolios were experienced as bureaucratic instruments.35–37,45,46 Portfolios were more highly appreciated when learners were given a certain amount of freedom to determine their content.32,50

많은 연구에서 멘토들의 적절한 지원이 부족하다고 보고되었습니다.20,31,35 다른 연구들은 교사, 트레이너 또는 교육 감독자들에 의한 멘토링이 포트폴리오의 성공에 중요한 기여를 했다고 확인했습니다.21,28,32,37,39–4멘토에는 교사, 트레이너, 감독관 또는 동료가 포함되어 있습니다. GP trainee들은 보조 트레이너가 있을 때 그들의 포트폴리오를 더 많이 이용했다. 멘토링의 중요한 영향 때문에, [멘토의 영향]과 [포트폴리오 자체를 완성하는 실용성]을 구분하는 것은 때때로 어려웠다. 분명히, 멘토링은 선생님들과 감독관들의 시간을 필요로 합니다. 하지만, 성찰 능력의 발전과 이해와 이해에 초점을 맞춘 깊은 학습 전략을 장려하는 것을 목표로 한 멘토링은 그럴 만 한 가치가 있었다.

Many studies reported the lack of adequate support from mentors.20,31,35 Other studies confirmed that mentoring by teachers, trainers or educational supervisors made an important contribution to the success of the portfolio.21,28,32,37,39–41,48 Mentors included teachers, trainers, supervisors or peers.31 General practice trainees made more use of their portfolios when they had a supportive trainer.35,38,41 Because of the significant impact of mentoring, it was difficult sometimes to discriminate between the effects of the mentor and the practicalities of completing the portfolio itself.35 Obviously, mentoring requires teacher and supervisor time.32 However, mentoring aimed at stimulating the development of reflective ability32 and deep learning strategies focused on comprehension and understanding28,43 merited the effort.

목적2. 평가

Goal 2. Assessment

포트폴리오 평가의 타당성을 조사하는 연구는 그것이 실제로 성찰 능력에 대한 타당한 시험이라는 것을 증명했다. 성찰의 질은 최종 평가 등급에서 가장 강력한 예측 변수였다. 레이아웃과 작문 스타일과 같은 다른 기준은 무시할 만한 효과를 가지고 있었다. 6개의 연구는 포트폴리오의 평가자간 신뢰성을 추정했다. 이 6개 연구의 평균 신뢰도는 0.63으로, 한 평가자가 다른 평가자로 무작위로 교체될 경우 추정된 신뢰도를 나타낸다. 그러나 2, 3 또는 4명으로 평가자가 증가하는 경우 신뢰도는 각각 0.77, 0.84 및 0.87로 증가합니다. 일반적으로 고부담 테스트에는 0.80의 값이 필요합니다.27 연구는 다수의 조치가 (훈련 받은) 평가자의 소규모 그룹 사용, 실제 평가 전 및 포트폴리오의 일부 사용 후 평가자들 간의 논의와 같은 여러 가지 평가간 합의에 긍정적인 영향을 미친다는 것을 제시했다. 

A study investigating the validity of portfolio assessment51 demonstrated it was indeed a valid test of reflective ability. Quality of reflection was the strongest predictor of the final assessment grade. Other criteria, such as lay-out and writing style, had negligible effect. Six studies estimated the inter-rater reliability of portfolios.45,46,48,51–53 The average reliability across these 6 studies was 0.63, representing the estimated reliability if one assessor were to be randomly replaced by another. However, with 2, 3 or 4 raters, the reliability would increase to 0.77, 0.84 and 0.87, respectively. A value of 0.80 is usually required for high-stakes tests.27 The studies suggested that a number of measures had a positive impact on inter-rater agreement: use of a small group of (trained) assessors;45,46,51–53 

    • discussion among the raters before the actual assessment46,51–53 and after assessing part of the portfolio,46,53 and 

    • the use of global criteria with rubrics.45,46,53

일반적으로, 학생 자신보다 교사와 평가자들이 포트폴리오 평가에 대해 더 많이 지지했다. 예를 들어, 심사관들이 평가를 위한 포트폴리오 사용에 대해 긍정적이었던 연구에서, 최종 학년 학생들은 내용이 사전에 정해진 포괄적인 포트폴리오가 너무 많은 서류 작업이 필요하며, 만약 공식적으로 평가를 하기 위해서는 어떻게 포트폴리오를 구성해야 하는지에 대한 더 advance information이 필요하다고 보고했다.

In general, there was more support for the formal assessment of portfolios from teachers and examiners than from students themselves.36,44,45 For example, in a study in which examiners were positive about the use of portfolios for assessment, final year undergraduate students reported that a comprehensive portfolio with prescribed content involved far too much paperwork and, if they were to be formally assessed, they needed more advance information about how to construct the portfolio.36

평가와 학습을 위한 포트폴리오의 사용은 종종 상충되는 것으로 보여진다. 즉, 학생들은 포트폴리오가 평가될 때 그들의 성찰에서 덜 솔직할 수 있다. 그러나, 하나의 포트폴리오에서 형태별 멘토링과 종합평가의 조합을 검토하는 2개의 연구는 이것이 문제가 아니라고 보고했다. 한 연구는 포트폴리오 평가가 학생들의 개방성에 영향을 미치지 않았다고 보고했으며, 다른 한 연구는 지원support과 평가의 조합이 GP와 그들의 CME tutor들에게 문제가 되지 않는다고 주장했다. 두 가지 연구는 만약 포트폴리오가 공식적으로 평가되지 않는다면, 다른 총괄평가도구가 더 우선시되고, 포트폴리오의 사용이 제한된다는 것을 보여주었다.

The use of the portfolio for assessment and learning is often seen as conflicting: students may be less open in their reflections when their portfolios are to be assessed. However, 2 studies examining the combination of formative mentoring and summative assessment in 1 portfolio reported that this was not an issue. One study described mentors  reports that portfolio assessment had no effect on students  openness32 and another claimed that the combination of support and assessment did not appear to be problematic for general practitioners and their CME tutors.28 Two studies showed that if portfolios were not formally assessed, other summative assessment instruments were prioritised and the use of portfolios tailed off.35,43



우리의 검토는 이전 문헌과 일치하며, 포트폴리오의 성공적인 사용에 있어 몇 가지 핵심 이슈가 결정적이며, 다른 분야의 연구 결과들과 일관된다.

Our review is in agreement with earlier literature, showing that several key issues are decisive in the successful use of a portfolio,55 and is consistent with findings from studies in other disciplines.

McMullan은 최근 간호학 연구에서 지원과 명확한 지침이 없다면 학생들과 멘토들이 실제로 포트폴리오 사용에 대해 점점 더 스트레스를 주게 되며, 사기를 떨어뜨린다고 결론지었다.

McMullan concluded in a recent study in nursing that, without support and clear guidelines, students and mentors became increasingly stressed and demoralised about the use of portfolios in practice.57

성공 요인

Success factors

포트폴리오로의 다양한 목표는 명확해야 하지만, 동시에 성공적으로 결합될 수 있습니다. 포트폴리오들은 학습의 형성적 촉진과 총괄평가에 동시에 사용될 수 있다. 이는 문헌에서의 이전의 논쟁과는 대조적인데, 기존 문헌은 평가와 학습을 위한 포트폴리오의 사용이 학생들의 포트폴리오가 평가될 때 그들의 성찰이 덜 open될 수 있기 때문에 상충되는 것으로 보았다. 문헌의 체계적인 검토에서 학습과 평가의 두 가지 목표를 결합하는 것은 문제를 일으키는 것으로 보이지 않는다. 오히려, 총괄평가는 포트폴리오 학습이 다른 평가 대상과 함께 그 지위를 유지하도록 하는 데 중요한 것으로 밝혀졌다.

The various goals of working with a portfolio need to be clear but can be successfully combined.28,32 Portfolios can be used concurrently in both the formative promotion of learning and summative assessment. This is in contrast to previous debate in the literature, where the use of portfolios for assessment and learning was seen as conflicting on the grounds that students may be less open in their reflections when their portfolios are to be assessed.58–60 From a systematic review of the literature, combining the 2 goals of learning and assessment does not appear to cause problems. On the contrary, summative assessment was found to be important to ensure that portfolio learning maintained its status alongside other assessed subjects.35,43

포트폴리오를 별도의 독립적인 도구가 아니라 다른 교육 활동과 통합할 수 있는 활동으로 보는 것이 바람직하다.

It is advisable to regard a portfolio not as a separate, independent instrument but as an activity that can be integrated with other educational activities.21,22

포트폴리오 지원에 멘토를 제공함으로써 학습의 효율성을 높일 수 있다. 멘토링은 상당한 시간 투자가 필요하지만 성공적인 포트폴리오 사용에 있어 중요한 것으로 보입니다. 포트폴리오 평가를 인터뷰와 결합하면 평가의 효과를 높일 수 있다.

Effectiveness of learning is enhanced by providing a mentor to support the portfolio. Mentorship requires a substantial time investment, but appears to be crucial to successful portfolio use.21,28,32,35,37,39,41,43,48 The effectiveness of assessment can be enhanced by combining the portfolio assessment with an interview.22,36,47

의학교육 포트폴리오의 통합에 대한 가장 큰 도전은 평가에 의해 driven되는 학생들의 눈에 포트폴리오의 지위가 유지되어야 한다는 것이다. 이 검토는 이것이 기관 평가 절차의 일부여야 한다는 것을 시사한다.연구 결과, 놀라울 정도로 높은 수준의 내부 신뢰도를 발견했습니다. 이것은 다른 도메인의 발견과 대조된다.

A major challenge for the integration of a portfolio into medical education is that its status must be maintained in the eyes of assessment-driven students. This review suggests that it must be part of the institutional assessment procedures.32,35,43 We found surprisingly high levels of inter-rater reliability in the studies.45,46,48,51–53 This contrasts with findings in other domains,

간호사의 포트폴리오 평가를 검토하는 과정에서 McCready는 

    • 숙련된 평가자, 

    • 포트폴리오 구축에 대한 명확한 지침, 

    • holistic 평가 절차를 요구합니다.

In her review of portfolio assessment in nursing, McCready54 also calls for experienced assessors, explicit guidelines for portfolio construction and a holistic assessment procedure.

포트폴리오 성공에 영향을 미치는 또 다른 문제는 유연한 학습 중심 형식입니다. 포트폴리오 콘텐츠의 모든 세부사항이 규정되어 있는 엄격한 구조는 포트폴리오 사용자들로부터 부정적인 반응을 이끌어 내고 역효과를 낸다.이 검토와 다른 문헌에서 발견한 사실은 너무 많은 구조가 너무 적은 구조보다 더 큰 위험을 의미한다는 것을 나타내는 것으로 보인다. 이는 학습자가 광범위한 역량의 개발과 평가를 지원하기 위해 명확한 방향과 지침이 필요하다는 사실을 부인하지 않는다. 그러나 [포트폴리오의 모든 세부사항에 대한 세부적인 지침을 주기보다는], 명확한 지침과 잘 정의된 포트폴리오 목표를 제시함으로써 방향을 결정해야 한다.57 여기서는 균형을 잡는 것이 중요하다.

Another issue that impacts on portfolio success is a flexible learner-centred format. A rigid structure in which every detail of portfolio content is prescribed elicits negative reactions from portfolio users and is regarded as counterproductive.28,32,35,36 Findings in this review and other literature56,57 appear to indicate that too much structure implies a greater risk than too little structure. This does not deny the fact that learners do need clear directions and guidance to support the development and assessment of broad competencies.29,57 However, direction should be achieved through clear guidelines and well defined portfolio goals rather than minute directives for every detail of the portfolio.57 Striking the right balance is crucial here.

시간은 또 다른 주요 문제이다. 포트폴리오를 만들 것을 요구하는 많은 학습자들과 그들의 감독관이나 멘토들은 포트폴리오를 만들고 판단하는 것이 시간이 너무 많이 걸리거나, 그냥 불가능할 것이라고 우려한다. 임상 전 학생들에게 시간 제약이 덜 문제가 된다는 사실은, 이 학생들이 상대적으로 더 많은 시간을 마음대로 쓸 수 있다는 것을 나타낼 수 있다. 임상 환경에서 학습자가 임상 실습의 압박 속에서 시간을 찾기가 쉽지 않습니다. 우리가 검토한 연구에서 설명한 포트폴리오 중 상당수는 사용자 친화적이지 않았고 방대한 양의 서류 작업이 포함되어 있어 포트폴리오 사용자는 엄격하고 세부적인 지침을 준수해야 했다. 너무 많은 구체적인 의무적인 콘텐츠가 들어있는 포트폴리오는 관료성을 만들고, 그 결과 어떠한 교육 목적도 제공하지 못할 뿐만 아니라, 학습자들이 그들의 직접적이고 살아있는 경험의 바깥outside에서 콘텐츠를 찾도록 강요한다.

Time, or rather lack of it, is another key issue. Many learners who are asked to create a portfolio, and their supervisors or mentors, are concerned that building and judging portfolios will be exceedingly time-consuming or downright impossible.20,28,31,38,41,45,46,64 The finding that time constraints appear to be less of a problem for preclinical students may indicate that these students have relatively more time at their disposal. For learners in clinical settings, it is clearly difficult to find time amidst the pressures of clinical practice. Many of the portfolios described in the studies we reviewed were not user-friendly and involved huge amounts of paperwork, forcing portfolio users to comply with strict and detailed guidelines.35,36,45,46 Too much specific obligatory content makes portfolios bureaucratic, with the result that they both fail to serve any educational purpose and force learners to search for content outside their direct and lived experiences.32,57

Table 1 Summary of factors promoting portfolio success


포트폴리오와의 협업 목표를 명확하게 소개

목표 결합(학습 및 평가)

포트폴리오 소개 

절차, 형식 및 내용에 대한 명확한 지침 제공

정보 기술 관련 문제에 주의

멘토링 ⁄ 상호작용 

교사, 강사, 감독자 또는 동료의 멘토링 제공


평가의 이해관계에 따라 2-3명의 평가 패널 사용

평가자 교육

전체 점수 매기기 사용(글로벌 성능 설명자)

포트폴리오 형식 

포트폴리오 목적 및 절차에 대한 설명과 함께 실제 소개를 사용합니다.

포트폴리오 형식을 유연하게 유지

포트폴리오 컨텐츠에 대해 지나치게 규범적이지 않음

서류 작업이 너무 많으면 안 됩니다.

커리큘럼 내 위치 

포트폴리오를 커리큘럼의 다른 교육 활동에 통합


Clearly introduce the goals of working with a portfolio

Combine goals (learning and assessment)

Introducing the portfolio 

Provide clear guidelines about the procedure, the format and the content

Be cautious for problems with information technology

Mentoring ⁄ interaction 

Provide mentoring by teachers, trainers, supervisors or peers


Use assessment panels of 2)3 assessors depending on the stakes of the assessment

Train assessors

Use holistic scoring rubrics (global performance descriptors)

Portfolio format 

Use a hands-on introduction with a briefing on the portfolios purpose and the procedures

Keep the portfolio format flexible

Avoid being overly prescriptive about the portfolio content

Avoid too much paperwork

Position in the curriculum 

Integrate the portfolio into other educational activities in the curriculum

연구 한계

Study limitations

"포트폴리오"라는 명칭이 너무 광범위함

Several limitations in this review should be considered. Firstly, the label  portfolio  refers to a broad range of instruments. The purpose, context, structure and content of the portfolios described in the literature reviewed here differed considerably.


Implications for research and practice

비록 문헌에 따르면 포트폴리오가 항상 성공적인 것은 아니지만, 많은 연구들은 포트폴리오가 어떻게 구현되었고 왜 실패했는지에 대해 조사하지 않았다.

Although the literature indicates that portfolios are not always successful, many studies did not examine how they were implemented and why they failed.

Author information

Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands. e.driessen@educ.unimaas.nl



미래의 학습자 평가하기: CBME에서는 급진적으로 다른 holistic 방법만이 통할 것이다. 잊으면 안될 여섯 가지(Med Teach, 2013)

Assessing tomorrow’s learners: In competency-based education only a radically different holistic method of assessment will work. Six things we could forget 

LAMBERT SCHUWIRTH & JULIE ASH Flinders University, Australia



역량 기반 교육(성과 기반 교육)이 세계를 정복하고 있습니다.

Competency-based education (outcome-based education) is conquering the world;

역량 기반 교육의 개념과 최적으로 일치하는 평가 프로세스를 개발하는 것은 결코 쉽지 않다(Van der Vleuten & Schwires 2005; Van der Vleuten et al., 2012).

developing assessment processes that are optimally aligned with the notion of competency-based education is far from easy (Van der Vleuten & Schuwirth 2005; Van der Vleuten et al., 2012).

해체 또는 환원주의가 고부담 시험에서 역량을 확인하는 유일한 방법이 아니다.

Deconstruction/reductionism is not the only way to capture competence in high-stakes assessment

불연속discrete 시험 요소 접근법의 기초가 되는 기본 가정은 일단 이러한 분해된 요소들이 다시 조립되면 그 결과는 원래 평가하고자 했떤 '역량'이 될 것이라는 것이다. 물론, 때때로 해체 후 재건은 효과가 있지만, 가끔은 그렇지 않을 수도 있다. 만약 당신이 자전거를 분해하고 적절히 재구성한다면 결과는 다시 자전거가 될 것이다. 하지만 개구리를 가지고 이것을 시도한다면 상황은 상당히 다를 것이다. 그렇다면, 역량은 자전거와 더 비슷할까 아니면 개구리에 가까울까? 역량 기반 교육의 중심적 교리가 통합과 holism이라는 점을 고려하면 '개구리'에 가깝다는 편이 더 그럴듯해 보인다.

The natural assumption underlying discrete testable elements approaches is that once these discrete elements are put together again the result will be‘competence’. Of course, sometimes dismantling and reconstructing can work but often it will not. If you deconstruct a bicycle and reconstruct it properly the result will again be a bicycle. But things are quite different if you try this with a frog.This, then, begs the question whether competence is more like the bicycle or like the frog. The latter seems more plausible given that a central tenet of competency-based education is one of integration and holism, so apparently in competence the whole is seen as being more than the sum of the parts.

그렇다면 어떻게 역량을 분해하지 않고 평가하느냐에 대해서, "health"에 대해서 "health"라는 현상을 이해하는 것이 유용한 비유가 될 수 있다. 세계보건기구에서 내리는 건강의 전반적인 정의는 단순히 질병이나 질병이 없는 것이 아니라, 완전한 신체적, 정신적, 사회적 웰빙의 상태입니다. 그러나 이것은 어떻게 "건강"하다는 것을 진단할 수 있는지를 이해하는 데 도움이 되지 않습니다. 보건의료인들은 이러한 '건강'의 개념을 (global phenomenon로서) 게스탈트로 간주하며, 개별적 진단 결과를 단순히 더하는(또는 곱셈하는) 데이터 포인트로 사용하지 않습니다. 대신에, 보건의료인들은 그 데이터 포인트를 '구성 요소'로 사용함으로써, 어떤 사람의 건강 수준과 그 사람의 문제를 위한 가장 적절한 관리에 대해 전문가에게 정보를 제공하는 방식으로 사용한다. 이것을 위해 health를 분해할 필요는 없다.

In order to understand how, then, to assess competence without taking it apart the phenomenon ‘health’ in health may be a helpful analogy. The WHO overall definition – Health is a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity (Anonymous 1946) – does not help us understanding how to diagnose – i.e., to assess – it. Health-care workers treat the concept rather as a gestalt – a global phenomenon – and do not use individual diagnostic results as data points that simply need to be added up (or multiplied). Instead, they use them as individually meaningful data ‘building blocks’ that inform the expert about the level of health and the most suitable management of the problem. For this there is no need to deconstruct health.

이를 역량 기반 커리큘럼에 대한 평가 프로그램으로 적용하면 다음과 같은 세 가지 의미가 있다.

If we translate this to assessment programmes for competency-based curricula it would mean three things:

'역량'을 게스탈트 수준으로 바라보면서, 동시에 이를 신뢰성 있게 평가할 수 있으려면, 평가 순간과 결정 순간 사이를 서로 단절시켜놓는 평가 프로그램이 필요하다(Dijkstra et al. 2010; Vanwell). 또한 각 학생에 대한 평가 정보를 지속적으로(그리고 목적에 따라) 수집해야 하며, 수집된 정보가 충분히 풍부할 때만 결정 순간decision moment으로 이어질 수 있다(Dijkstra et al. 2012; Schuwires). 결정의 '부담'에 따라 얼마나 자료가 풍부하게 필요한지가 달라진다.

In order to keep ‘competence’ at the gestalt level and still be able to assess it credibly, a programme of assessment is needed with a disconnection between assessment moments and decision moments (Dijkstra et al. 2010; Schuwirth & Van der Vleuten 2011; Van der Vleuten & Schuwirth 2005; Van der Vleuten et al. 2012). It should employ a continuous – and even purposive – collection of assessment information about each student, which would only then lead to decision moments when the collected information is rich enough (Dijkstra et al. 2012; Schuwirth & Van der Vleuten 2011; Van der Vleuten et al. 2012). Logically, the richness of the data is in accordance with the stakes of the decision

결정을 내릴 때까지 데이터는 풍부함을 유지해야 합니다(Dijkstra et al. 2012; Van der Vleuten et al. 2012). 각 평가 성과를 이분법적(통과-실패) 결정으로 축소시키고, 역량을 일련의 이분법적 성과 집합으로 정의하는 대신, 풍부함은 끝날 때까지 유지되어야 한다(포트폴리오 같이). 는 전체 consultation 프로세스 동안 모든 진단 정보를 누적하여 포함하는 환자 차트와 유사합니다. 이는 풍부한 정보, 학습 프로그램적 평가 및 이분법적 통과 실패 결정이 서로 조화할 수 있음을 보여준다(Shepard 2009; Schuwires & Van der Vleuten 2011).

The data needs to retain its richness until a decision has to be made (Dijkstra et al. 2012; Van der Vleuten et al. 2012). Instead of reducing each assessment result into a dichotomous (passfail) decision and defining competence as a string of dichotomous results, the richness must be retained (e.g. in a dossier or portfolio) right until the end. This is similar to a patient chart that contains all the diagnostic information throughout the whole consultation process. This shows that rich information, programmatic assessment for learning and making high-stakes dichotomous pass-fail decision can be reconciled (Shepard 2009; Schuwirth & Van der Vleuten 2011)

이러한 평가프로그램에는 본질적으로 우월하거나 열등한 평가 도구는 없다. 각 도구는 강점, 약점, 적응증 및 부작용이 있다(Van der Vleuten 1996). 이는 현재의 타당성 이론에 따르면 모든 이론들이 특정 목적을 위해서만 항상 타당하거나 타당하지 않으며, 그 자체로 타당하거나 타당하지 않은 것이 아니다. (Messick 1994; Kane 2001, 2006) 따라서 좋은 평가 프로그램은 랜덤하게 수집된 평가도구가 아니라(심지어 그 도구들의 퀄리티가 높더라도), 의도적으로 제작된 도구의 조합으로, 각 도구가 최적의 퀄리티를 갖추어야 한다.

In such a programme there are no intrinsically superior or inferior assessment instruments; each instrument has its strengths, weaknesses, indications and side effects (Van der Vleuten 1996). This is in accordance with current validity theories which are all converging on the idea that an but a instrument is never valid in itself always only for certain purpose (Messick 1994; Kane 2001, 2006). A good programme, therefore, is not a random collection of – even high quality – instruments, but a purposely built combination of instruments; each being of optimal quality.

평가 결과를 서로 합할 때 내용이 비슷한 것끼리 합해야지, 형식이 비슷한 것끼리 합해서는 안된다.

When combining the results of assessment elements content-similar combinations are more helpful than format-similar ones

거의 모든 평가 프로그램에서 (비교 가능한 내용을 가진 것끼리 결합되기보다) 형식이 유사한 것들끼리 결합된다. 이는 둘 다 '기술'이라는 trait를 측정한다는 가정 하에 이루어집니다. 이러한 자동적 가정에 도전하기 위해 이를 임상 실무와 비교하는 것이 도움이 됩니다. 여기서 우리는 나트륨 수치와 포도당 수치가 모두 lab results라는 이유로 둘을 더하는 것을 결코 상상도 못할 것이다. 

In almost all assessment programmes, elements of similar format are combined rather than elements with comparable content. This is done under the assumption that they both measure the trait ‘skills’. To challenge this automatic assumption it is helpful to – again – compare it to clinical practice. Here we would never dream of combining the sodium level and glucose level because both measures are ‘lab results’’.

이 접근방식의 또 다른 결과는 평가의 모든 항목/요소가 유의미한 것으로 취급되어야 한다는 것이다. 이것은 현재의 평가 실무에서 흔한 생각이 아니다. 일반적으로 평가의 모든 항목 또는 요소의 목적은 총 점수에 기여하고, 이를 통해 시험의 타당성에 기여하며, 이 과정에서 각 요소의 유의미성을 희생시킨다.

A further result of this approach is that every item/element of assessment has to be treated as meaningful. This is not a common idea in current assessment practice. Usually the purpose of every item or element of an assessment is to contribute to a total score and by this to the validity of the test, often at the expense of the meaningfulness of each element.

이것을 잘 보여주는 예시는 다음과 같다. 평가자들은 흔히 어떤 문항이 통계적으로 아주 안 좋을 경우, 그것이 비록 sound하고 내용 및 문구상 관련성을 갖추었더라도 그 문항을 제거해야 할지에 대한 딜레마를 겪는다. 한 문항의 통계는 총점에 기여하는 문항의 power만을 고려하는 반면, 한 문항의 내용은 내적인 의미만을 보여준다. 그러나 어떤 문항이 동일한 내용영역에 대한 다른 정보와 의미 있게 결합된다면, 내용타당도와 구인타당도가 모두 훨씬 더 잘 align될 것이다.

Illustrating this is the common dilemma assessors face whether or not to eliminate an item that has very poor item statistics and yet is of sound and relevant content and wording. The statistics would only consider the power of the item to contribute to the total score whereas the content of the item only considers its intrinsic meaningfulness. But, when items are meaningfully combined with other information from the same content domain both its content and construct validity align much better.

숫자를 다루는 것이 실세계를 다루는 것으로 바로 연결되지 않는다.

Manipulating numbers does not automatically mean manipulating the real world

통계는 종종 술 취한 사람의 전등 기둥처럼 사용된다; 빛보다는 지지를 위해 사용된다.

Statistics are often used like a lamp post to a drunken man; more for support than for illumination.

평가에서 일부 결과는 수치 값으로, 일부는 서술적 결론으로 캡처된다.

In assessment, some results are captured as numerical values and some as narrative conclusions.

그러나 숫자든 문자든 그 자체만으로는 충분하지 않다. 숫자는 일부 사람들이 생각하는 것처럼 완전히 객관적이고 완전히 모호성이 없지 않습니다 – 만약 그렇다면, 정량적 연구에 고찰 섹션이 필요한 이유는 무엇입니까? 단어와 마찬가지로 숫자도 평가 결과를 descript할 뿐이며, 인위적으로 숫자를 바꿀지라도, 그것이 설명하는 정보가 달라지지는 않습니다.

Neither type of information is better in itself. Numbers are not as completely objective and unambiguous as some tend to think – why else would a quantitative study need a discussion section? Numbers, like words are descriptors of assessment results, and artificially changing the numbers does not change the information they describe.

A-D 판사는 서로 완전히 동의하며 E의 추정치만 다른 평가들과 불일치합니다. 의 값은 0.40입니다. 이제 이 '시험'에서 이 '신뢰성'입니다. 외부 판사 E를 패널에서 제거하면 일반성이 완벽해지고 1.00이 됩니다. 모든 정신측정학자나 평가 전문가가 이것이 잘못된 관행이라고 말할 것이다. 첫째, 심사위원들은 이론적으로 무한히 많은 심사위원 집단에서 추출한 표본이므로, 심사위원 E를 추출하면 이 표본은 20%까지 감소된다. 만약 E 판사만이 유일하게 학생들을 자세히 관찰한 경험이 많은 전문가라면 어떨까?

Judge A–D completely agree with each other and only judge E’s estimates are at variance with the others. The of is 0.40. now generalisability/reliability this ‘test’ If we remove the outlying judge E from the panel the generalisability becomes perfect and is 1.00. Every psychometrician or assessment expert will tell that this is poor practice. First, the judges are a sample from a theoretically infinite pool of judges, so by taking judge E out this sample is reduced by 20%. What if judge E on closer look was an expert with lots of experience with students?

이는 단지 위의 예시와 같은 판단 연습 뿐만 아니라, 바람직하지 않은 문항 통계 때문에 시험에서 어떤 문항을 제거하는 있는 상황에도 적용된다. Number manipulation이 일어나는 많은 다른 상황들이 있다. 많은 프로그램에서 순위 또는 질적 결과는 단순히 숫자로 변환된다: '좋은', '만족'은 '8', '6' 등이 된다. 그런 다음 이러한 점수를 다른 수치 점수와 결합하여 평균 점수를 산출합니다. 이것은 종종 방어할 수 없는 정보의 유형의 변화이다. 예를 들어 '6'과 '8'의 평균은 '7'이지만, '양호'와 '만족'의 평균을 계산할 수 있다는 의미는 아니다.

This holds not only for the judgement exercise above but also for situations in which items are being removed from a test purely because of undesirable item statistics. There are many other situations in which number manipulation occurs. In many programmes, ordinal or qualitative results are simply translated into numbers: ‘good’, ‘satisfactory’, etc., then become ‘8’, ‘6’, etc. These scores are then combined with other numerical scores to produce mean scores. This is a transformation of the type of information that is often not defensible. For example, the mean of a ‘6’ and an ‘8’ is ‘7’, but this does not imply that a mean of ‘good’ and ‘satisfactory’ can be calculated.

모든 평가 순간이 결정 순간은 아니다.

Not every assessment moment needs to be a decision moment

모든 평가 순간이 항상 결과consequences를 가져야 한다는 생각은 역량 기반 교육에 별로 도움이 되지 않습니다. 그것의 주요한 부작용 중 하나는 그것이 형성평가와 총괄평가를 분리하지 않고서는 assessment-for-learning 프로그램이 되게 할 수 없다는 것이다. 역량 기반 교육에서 이것은 사실상 불가능한 것인데, 장기적으로 어떤 평가도 모든 이해당사자들에게 완전히 형성적이면서 의미가 있거나 또는 완전히 총괄적일 수 없기 때문이다.

This idea that every assessment moment must always have consequences is not a very helpful one in competency-based education. One of its major side effects is that it cannot lead to an assessment-for-learning programme without separated formative and summative assessment instruments. In competency-based education this is rather unworkable because, in the long run, no assessment can be either completely formative and meaningful to all stakeholders or completely summative.

완전히 총괄적인 평가에서 학생은 합격 여부만 알게 될 것이다. 순수한 총괄평가는 학습을 steer할 수 없으며, test-taking 행동만 바꿀 것이다.

In the latter the student would only learn whether s/he has passed or not. Purely summative assessments cannot steer learning but only test-taking behaviour;

평가가 유익하고 의미 있고 학습에 영향을 미치기 위해서는 약간의 '이빨'이 필요하다(Newble & Jager 1983; Frederiksen 1984; Cillier et al. 2010; Cillier 등). 따라서 형성적 기능과 총괄적 기능은 언제든 혼합될 수 있다.

For assessment to be informative, meaningful and have an impact on learning it needs to have some ‘teeth’(Newble & Jaeger 1983; Frederiksen 1984; Cilliers et al. 2010; Cilliers et al. 2012a, 2012b) and, therefore, the formative and summative function of assessment should whenever possible be combined.

역량 기반 커리큘럼에 대한 평가 프로그램을 설계할 때 두 기능을 결합하는 것은 불가능한 작업이 아니다. 평가가 학습자에게 피드백과 정보를 제공하는 지속적인 과정인 상황에서, 일정 기간 데이터 수집 평가 후에 이루어지는 중부담 또는 고부담 결정의 순간은 '이빨'를 가지며, 형성적일 수 있다.

Combining both functions is not an impossible task when designing an assessment programme for a competency-based curriculum. In a setup in which assessment is an ongoing process with feedback and information to the learner in conjunction with medium and more high-stakes decision moments after a period of data collection assessment can both have ‘teeth’ and be formative. figure 1

표준화가 공정한 평가의 유일한 길은 아니다.

Standardisation is not the only road to equitable assessment

지난 수십 년간, 표준화된 시험에 대해 많은 것을 배웠다. 그러나 표준화된 시험으로 달성할 수 있는 것에는 한계가 있고, 표준화가 equity를 개선하기보다는 악화시키는 경우도 충분히 있다.

In the past decades, much has been learned about standardised testing. But there is a limit to what they can achieve and there are sufficient situations in which standardisation actually reduces equity rather than improving it. 

우리는 1970년대 초 일류 대학의 남성 합창단에 대한 농담을 하곤 했다. 남녀평등의 운동에서 그들은 여자를 받아들일 의무가 있었다. 그들의 해결책은 간단했다; 모든 여성들이 합창단이 될 수 있었지만 참가 자격 요건은 그대로 남아 있었다: 그들은 프리마 비스타를 베이스, 바리톤 또는 테너로 노래할 수 있어야 한다, 

We used to tell the joke about an all male choir at a prestigious university in the early 1970s. In the movement of more equality between the sexes they were obliged to accept women. Their solution was simple; every woman could become a choir member but the entry requirements remained the same: they should be able to sing, prima vista, a moderate to difficult base, baritone or tenor piece from sheet music.

그 이유는 모든 경우에 있어서 equity는 (평가 프로세스의 퀄리티가 모든 경우에 equal하다고 가정했을 때) 같은 사람을 같게 대하는 것 뿐만 아니라, 같지 않은 사람을 같지 않게 대하는 것까지 포함되는 것이다.

The reason for this is that equity is not only treating equal people equally, but it is also treating unequal people unequally, provided that the quality of the assessment process is equal in all cases.

스크리닝 프로그램과 개별 환자에 대한 진단 프로그램이 다르다. 선별 프로그램은 환원주의적 의사결정(높은 위험 또는 낮은 위험)에 대한 구조화된 접근방식에 초점을 두며, 개개 환자에 대한 돌봄은 맞춤형 의료 서비스를 위한 세부 정보에 초점을 맞춘다. 말할 필요도 없이, 훌륭한 종합 건강 관리 시스템은 둘 다 활용되어야 하고, 따라서 평가 프로그램도 마찬가지이다; 구조화되고 표준화된 요소와 유연하고 개별화된 요소를 모두 포함해야 한다.

like screening programmes in health care differ from diagnostics in individual patient care. Screening focusses on structured approaches to reductionist decisions (high risk or low risk) and individual patient care focusses on detailed information for tailored health care. Needless to say that a good overall health-care system utilises both, and so should an assessment programme; it contains both structured and standardised elements and flexible individualised ones.

평가는 부족한 역량을 탐지하는 목적만 가진 것은 아니다: 사실은 그러면 안된다.

Assessment is not solely about detecting deficiencies; in fact it should not be

전형적으로 우리는 평가를 무능한 학생들이 합격하거나 졸업하는 것을 막는 도구로 생각하는 경향이 있다. 이렇게 하려면 평가는 학생들이 무엇이 부족한지에 초점을 맞춰야 하고, 따라서 본질적으로 꽤 징벌적 성격을 가질 수 밖에 없다.

Typically we tend to think about assessment as the instrument to prevent incompetent students from passing or graduating. In order to do this it has to focus on the deficiencies of the students and therefore has to be quite punitive in nature.

첫째, 이러한 방식의 평가는 항상 교사/평가자와 학생 사이에 긴장을 유발하며, 서로를 적대적 상황에 놓이게 한다. 이러한 긴장감은 (비밀 문제은행, 방어적인 학생 교사 관계, 교사의 멘토링 역할의 훼손, 학생들의 전략적 시험 행동, 사기 등과 같이) 학습에 반하는 전략과 행동들로 이어진다. 더 중요한 것은, 이것이 단순히 학생들을 instruct하기보다는 학생들을 educate시키려는 학교의 노력을 방해하고, 학생들의 혁신적인 학습 개발을 방해한다는 것이다. 이것은 학생들이 [지식과 이해의 한계를 탐험하는 것에 편안함을 느끼는 성인 학습자]가 되도록 하지 않는다는 것을 의미하고, 그들의 전문지식을 지속적으로 확장하기 위해 더 나아가는 것을 편안하게 느끼게 만들어주지 못함을 의미한다. 졸업후 과정에서도 현재 접근 방식은 CME에 충분히 관여하지 않는 사람들을 '징벌'하는 재인증 시스템으로 이어지며, 전문적 자기 향상보다는 등록 취소 위협을 주된 인센티브 시스템으로 활용한다.

First, it always creates a tension between teacher/assessor and student, putting both in adversarial roles. This tension leads to strategies and behaviours that are antipathic to learning such as secret item banks, defensive student teacher relationships, with compromise of the mentoring role of the teacher, strategic student test-taking behaviour, fraud, etc. More importantly, it obstructs the schools’ endeavours to educate students rather than to simply instruct them, and it stifles the students’ transformative learning development (Mezirow 2002). This means that it does not lead students to become adult learners who feel comfortable exploring the boundaries of their knowledge and understanding, and feel comfortable going further to continuously expand their expertise. Even at a post-graduate level the current approach leads to re-accreditation systems that ‘punish’ those who do not engage sufficiently in CME, using threat of deregistration as the prime incentive system rather than professional self-improvement.

둘째, 그것은 무능하고 보상받을 수 없는 학생들의 유병률이 낮다는 것을 고려하지 않는다. 특히 의학에서는 그러한 학생들의 수가 보통 적다. 이러한 학생들을 발견하는 데만 중점을 두는 평가는 필연적으로 많은 수의 문제를 가질 수 있다. 즉, 다수의 이미 훌륭한 학생들까지 시험을 받아야 하고, 각각의 시험은 (한 명의 부족한 학생을 잡아내기 위해서) 역량을 갖춘 학생을 부당하게 낙제시킬 가능성이 있다.이것이 (공공) 자원의 책임 있는 사용인지 심각하게 의문을 품을 수 있으며, 이것이 학생들에게 해롭다는 결론에 다다르게 하며, 실제로 학생의 학습을 지원해야 하는 암묵적 계약을 무시한다.

Second, it does not take into account the low prevalence of students who are incompetent and cannot be redeemed. Especially in medicine the numbers of such students are usually low. Focussing assessment purely on detecting these students is likely to have a number-needed-to-treat problem,i.e. many good students have to be tested and many tests –each with a probability of unjustly failing a competent student –have to be used in order to capture one unredeemable student.One could seriously question whether this is an accountable use of (public) resources, and conclude that this is harmful to students, and indeed neglects the implicit contract to support their learning. 

셋째, 그것은 교육적 담화를 소비자-제공자의 토론으로 강제하고, 학생들은 학교를 역량 교육을 하는 조직이 아니라 졸업장을 판매하는 기관으로 보게 된다. 시험은 교수가역량 개발을 최적화하기 위해 사용하는 도구가 아니라, 학생의 졸업장을 보류하기 위해 사용하는 도구와 거의 자동으로 연관된다.

Third, it forces the educational debate into a consumer provider discussion, where students see the school as the organisation selling diplomas rather than educating for competence. Examinations are almost automatically associated with the instruments the faculty uses to withhold students their diplomas rather than instruments the faculty uses to optimise the development of competence.

학습 설계에 대한 프로그램적 평가에서, 평가가 교육의 한 부분으로 여겨질 때, 의과대학이 '판매' 하는 '물건'은 '가장 빠른 졸업증'이 아니라 '최적의 역량'이 될 것이다. (Dannefer & Hensu 2007). 그러나 이것 때문에, 교육은 결함을 보완할 뿐만 아니라 능력과 재능을 확인하는 것이기 때문에 평가는 약점뿐만 아니라 강점에도 초점을 맞추어야 한다. 따라서 순수하게 '결함 모델'을 사용하는 대신 '차이 모델'을 선택하는 것이 더 낫다.

Where assessment can be really made into an integral part of education, in a programmatic assessment for learning design, the ‘product’ medical schools ‘sell’ is optimal competence rather than the fastest diploma (Dannefer & Henson 2007; Schuwirth et al. 2012). For this, however, assessment should be aimed not only at weaknesses but also at strengths, as education is not only remediating deficiencies but also affirming abilities and talents. So instead of using a pure ‘deficiency-model’ it is better to choose for a ‘differences model’.


평가 원칙과 실천요강은 아마도 대부분의 현재 시스템보다 더 '어려울' 것이다. 왜냐하면 그것들은 풍부한 정보 수집, 많은 경우 다중 샘플링, 수집된 모든 정보에 대한 문서화와 분석, 그리고 충분히 훈련된 직원들에 의해 학생들과 열린 대화를 필요로 하기 때문이다.

The assessment principles and practices are probably ‘harder’ than most current systems, because they are based on collecting rich information, multiple sampling at many occasions, documentation and analysis of all the collected information and an open dialogue with students by staff that is sufficiently trained for this task.

Author information

Author information

In this paper we are challenging six traditional notions about assessment that are unhelpful when designing 'assessment for learning'-programmes for competency-based education. We are arguing for the following: Reductionism is not the only way to assure rigour in high-stakes assessmentholistic judgements can be equally rigorous. Combining results of assessment parts only because they are of the same format (like different stations in an OSCE) is often not defensible; instead there must be a logically justifiable combination. Numbers describe the quality of the assessment. Therefore, manipulating the numbers is usually not the best way to improve its quality. Not every assessmentmoment needs to be a decision moment, disconnecting both makes combining summative and formative functions of assessment easier. Standardisation is not the only route to equity. Especially with diverse student groups tailoring is more equitable than standardisation. The most important element to standardise is the quality of the process and not the process itself. Finally, most assessment is too much focussed on detecting deficiencies and not on valuing individual student differences. In competency-based education--especially with a focus on learner orientation--this 'deficiency-model' is not as well aligned as a 'differences-model'.

[Indexed for MEDLINE]

역량-바탕 세계에서 평가의 개념적 진화(Med Teach, 2017)

Evolving concepts of assessment in a competency-based world

Peter Harrisa, Farhan Bhanjib,c, Maureen Toppsd, Shelley Rosse , Steven Liebermanf, Jason R. Frankb,g,

Linda Snellb,c and Jonathan Sherbinoh; on behalf of the ICBME Collaborators



역량 기반 의료 교육(CBME)은 커리큘럼 설계와 훈련생 평가에 대한 접근방식으로서, CBME의 근본적인 목표는 의료 전문가의 교육을 향상시켜 일관된 고품질 환자 치료를 제공하는 것이다(Caracio et al. 2002; Frank et al. 2010). CBME는 훈련생과 practitioner의 역량을 체계적으로 향상시키기 위해 노력하고 있으며, 역량이 달성되고 유지되는지 확인하는 것뿐만 아니라, 수월성excellence을 장려합니다.

Competency-based medical education (CBME) is an approach to curriculum design and trainee assessment whose fundamental aim is to improve the training of health care professionals so that they deliver consistent, high-quality patient care (Carraccio et al. 2002; Frank et al. 2010). CBME strives to systematically enhance abilities in trainees and practitioners, not only ensuring that competence is achieved and maintained, but also encouraging excellence.

역량 기반 평가 설계는... 

  • 학습자에게 제공하는 피드백의 양과 질을 개선하는 동시에, 성찰 연습 및 평생 학습을 위한 기술 개발을 지원한다. 

  • 지속적인 품질 개선 프로세스의 일환으로 평가 데이터를 활용한다. 

  • 가장 중요하게는, 관련 영역에서 입증된 역량을 가진 의사가 의료를 제공하도록 하기 위함이다.

Competency-based assessment is designed 

to improve the quantity and quality of feedback to learners, while supporting the practice of reflection and the development of skills for lifelong learning; 

to utilize assessment data as part of a continuous quality improvement process; 

and, perhaps most importantly, to ensure that patient care is delivered by providers with demonstrated competence in the relevant domains.

역량 프레임워크와 CBME 평가

Competency frameworks and CBME assessment

역량 프레임워크는 효과적인 전문적 의료행위에 필요한 역량의 statement로 구성된 조직된 스키마이다.

A competency framework is an organized schema composed of statements of the abilities required for effective professional practice.

CBME는 어떤 학습 활동이든 프레임워크에 의해 정의된 하나 이상의 역량과 관련되어야 하는 구조를 제공한다.

It provides a structure within which learning activities should relate to one or more that of the competencies defined by framework.

CBME는 학습에 대한 고립된, 고부담의, 일시적인, 총괄평가보다는 학습을 위한 평가를 강조한다. 이 접근법은 통합적이며, 맥락의존적이고, 전문직업적 역량의 시연가능한 선택과 연결되어있고, 직무의 상호의존성과 역량에 필요한 평가의 다양성을 강조하는 Govaerts(2008)의 설명과 잘 들어맞는다.

CBME emphasizes assessment for learning rather than isolated, high stakes, point-in-time, summative examinations of learning. This approach fits well with the Govaerts (2008) description of integrated, context-dependent, demonstrable choices linked to professional domains, and emphasizes the interdependency of tasks and the multiplicity of assessments required for competency.

또한 학습자와 임상의사가 전문가와 동료의 직접적인 관찰과 건설적 피드백을 활용하는 평가 방법을 "buy-in"하는 것이 필수적입니다.

and it is essential that learners and clinicians “buy in” to assessment methods that utilize the direct observation and constructive feedback of experts and peers.

CBME는 다양한 환자를 대상으로 여러 번 여러 번 마주치는 관찰자를 요구해야 하는 과제를 제시합니다.

CBME presents the challenge of requiring multiple observers of multiple encounters at multiple times with diverse patients

역량에 대한 총괄적 판단은 고립적으로 내려져서는 안 된다(Holmboe et al. 2010). 대신, 복수의 관찰과 평가점수가 모여져서 판단을 내릴 훈련자의 실제 그림을 전달하는 방식으로 결합되어야 한다. "결정 순간"은 "평가 순간" 에서 분리되어야 하며(Schuwrence & van der Vleuten 2011), 데이터 수집은 종합적인 결정을 뒷받침할 만큼 충분히 풍부해질 때까지 계속되어야 한다.

Summative judgments of competence should not be made in isolation (Holmboe et al. 2010); rather, multiple observations and ratings need to be combined in a manner that conveys a real picture of the trainee to be judged collectively. “Decision moments” need to be disconnected from “assessment moments” (Schuwirth & van der Vleuten 2011), and data collection should continue until it is rich enough to support a summative decision.

CBME의 평가는 단순히 역량의 부재를 확인하는 것에서 그치면 안되며, 역량 향상에 초점을 맞춰야 한다.

Assessment in CBME should focus on improving competence, not simply on identifying incompetence (Schuwirth & Ash 2013).

CBME평가의 타당성 개념

Conceptualizing validity in CBME assessment

평가의 타당성은 특히 총괄 평가에서 가장 큰 관심사이다. 20세기 중반에, 의학 교육에서의 정신측정학의 도입은 [판단의 정확성 판단을 목적으로 하는 평가 데이터의 엄격한 interrogation]을 위한 체계적인 접근법을 제공했다. 그러나, 전통적인 타당성 representation은 결정의 정확성을 제한적이고 피상적으로만 이해할 수 있게 만든다(즉, 내용, 준거, 구인 타당도)

The validity of an assessment, particularly a summative assessment, is of paramount concern. During the mid-20th century, the adoption of psychometrics in medical education offered a systematic approach to the rigorous interrogation of assessment data in order to determine the accuracy of a judgment. However, it is now understood that traditional representations of validity (i.e. content, criterion, and construct validity) can result in a limited and superficial understanding of the accuracy of a judgment.

특히, 전통적인 정신측정적 접근법은 양적 데이터만이 역량의 판단에 사용하게 만들며(Hodge 2013), 종종 측정하기 쉬운 지식이나 기술에 초점을 맞추고, 역량 척도는 과도하게 환원적인 것으로 대체시킨다(Govaert et al.)

Specifically, a traditional psychometric approach allows only quantitative data to inform a judgment of competence (Hodges 2013), often focusing on knowledge or skills that are easy to measure, and leading to overly reductionist surrogates of competence (Govaerts et al. 2007).

25년 전, 메시크(1989년)는 양적 점수의 통계적 정확성을 넘어서는 타당성 정의를 제안했다. 타당성은 "경험적 근거와 이론적 합리성이 추론/시험 점수/다른 평가 방식에 기초한 조치의 적절성과 적합성을 뒷받침하는 정도에 대한 통합된 평가적 판단"이다. 이러한 개념화를 바탕으로, 케인(1992)은 타당성을 최종 판단의 "진실성"에 대한 [추론의 거미줄]로 해석했다. 이 개념에 따르면 타당성은 "숫자"가 아니라 의사의 "진짜" 역량에 대한 최종 판단을 뒷받침하는 '주장'이다.

More than 25 years ago, Messick (1989, p. 5) proposed a definition of validity that moved past the statistical accuracy of quantitative scores: “Validity is an integrated evaluative judgement of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment.” Building on this conceptualization, Kane (1992) construed validity as a web of inferences about the “truth” of a summative judgment. By this conception, validity is not a “number” but, rather, an argument that supports the final judgment about “true” physician competence.

기본적으로, 네 가지 핵심 추론은 

  • 관찰에서 점수로 이동, 

  • 단일 점수에서 글로벌 점수로 이동, 

  • 총괄 판단으로 외삽, 

  • 이러한 데이터를 평가 프로그램의 구조에 도움되는 정보로 연결하는 것이다.

Essentially, four key inferences are made in building a validity argument: moving from observation to score; moving from a single to a global score; extrapolating to a summative judgment; and linking these data to the constructs that inform the assessment program (Schuwirth & van der Vleuten 2012; Cook et al. 2015).

CBME의 평가는 [교육자 그룹에 의해 평가 프로그램이 신중히 설계되어야 하며], [교수진은 학습과 퍼포먼스의 문서화를 모두 서포트하는 방식으로 평가 도구를 사용]해야 한다.

Assessment in CBME requires the deliberate design of a program of assessment by a group of educators and the use of assessment tools by teaching faculty in a manner that both supports learning and documents performance.

질적 평가

Qualitative assessment

많은 출처로부터 잠재적으로 풍부한 정성적 평가 정보를 이용할 수 있다.

Many sources of potentially rich qualitative assessment information are available

질적 접근법은 특히 "전문직업성과 같은 도메인-독립적인 역량"을 평가하는데 유용하며, 학습자의 개발을 안내하는 실행 가능한 피드백을 제공하는 데 유용하다.

Qualitative approaches are especially useful in assessing what van der Vleuten et al. (2010, p. 709) refer to as “domain-independent competencies” such as professionalism and in providing actionable feedback to guide learners in their development.

지금까지 정성적 평가의 구현은 교수 및 학생의 시간과 노력(예를 들어, 포트폴리오의 컴파일 및 평가)부담 뿐만 아니라, 신뢰도와 타당도에 대한 전통적인 심리측정적 구인에 의해서도 저해되어 왔다. 이러한 전통적인 개념에서는 질적 데이터는 표준화된 시험을 통해 얻은 점수에 비해 나쁜 것으로 여겨져왔다.

To date, the implementation of qualitative assessment has been hampered not only by the time and effort it demands of faculty and often learners – for example, in the compilation and assessment of portfolios (Donato & George 2012) – but also by an emphasis on the traditional psychometric constructs of reliability and validity, under which qualitative data may fare poorly in comparison with scores obtained through standardized testing.

소위 "심리측정학 담화" (Hodge 2006)는 의학 교육에서 질적 평가 방법의 사용과 refinement를 억제해왔지만, 질적 방법의 사용이 점차 늘어나면서, 신뢰성과 타당성에 대한 전통적 강조는 새로운 구인인 trustworthiness와 authenticity에 의해서 되욱 강화되었다.

The so-called “psychometric discourse” (Hodges 2006) has inhibited the use and refinement of methods of qualitative assessment in medical education, but as the use of these methods has increased the traditional emphases on reliability and validity has been augmented by new constructs such as trustworthiness and authenticity (Govaerts et al. 2007).

광범위한 영역에서 다양한 유형과 평가 포인트의 필요성이 광범위하게 받아들여진다(van der Vleuten & Schuwer 2005). 이러한 다수의 평가 지점들(이 중 다수는 본질적으로 질적 자료이다)을 통합하는 것은 그 자체가 질적 평가이다.

The need for multiple types and points of assessment across a broad range of domains is broadly accepted (van der Vleuten & Schuwirth 2005). Integrating these multiple points of assessment – many of which are qualitative in nature – is itself an exercise in qualitative assessment.

마일스톤과 평가

Milestones and assessment

CBME는 퍼포먼스의 발전상황과 최종수준을 모두 반영할 수 있는 마일스톤의 개발을 촉진한다. 마일스톤"발달 연속체를 따라 정의된, 관찰가능한 개인의 역량에 대한 마커"이다(이 호에서 Englander et al. 2017). 이들은 준거 기반이며, 마일스톤을 모두 모으면, 특정 역량 또는 성과를 통한 학습자의 개발 여정을 표로 만들 수 있다.

CBME promotes the development of milestones that can reflect both progression and exit levels of performance. A milestone is a “defined, observable marker of an individual’s ability along a developmental continuum” (Englander et al. 2017, in this issue). They are criterion-based and, when taken together, chart the developmental journey of a learner through a particular competency or performance.

progressive step을 포함하는 이정표는 DP과 피드백에 대한 강조와 잘 들어맞는다. 이들은 [예상된 순차적 행동]에 대해 명확히 표현된 근거를 제공하고, 학습자와 평가자를 위한 공유된 정신 모델을 encourage한다.

Milestones that incorporate progressive steps align well with an emphasis on deliberate practice and feedback. They provide a clearly articulated basis for expected, sequential behaviors and encourage a shared mental model for learners and assessors that can guide learning.

평가에 대한 프로그래밍 방식 접근 방식은 진행 상황을 매핑하는 마일스톤에 의존합니다. 그들은 프로그램과 훈련생 모두에게 정보를 제공하고, 한 시점에 개인의 지위를 집합적으로 기술한다.

Programmatic approaches to assessment rely on milestones to map progress. They are informative for both programs and trainees, and collectively describe an individual’s status at a point in time.

반복적으로 수집된 개인화된 자료를 통해 

  • 련자의 교육 궤적을 추적할 수 있으며, 

  • 표준 이하의 성과를 조기에 탐지할 수 있고, 

  • 야에서의 성취도를 조기에 입증한 경우에는 가속 옵션option of acceleration을 사용할 수 있다.

repeated personalized data allow a trainee’s educational trajectory to be tracked and enable the early detection of substandard performance or the option of acceleration where achievement in an area is demonstrated early.

프로그램 수준에서의 결정 외에도, 훈련생들은 자기평가 기술을 개발할 수 있는 도구를 제공하는 평가 시스템을 요구한다. 지금의 훈련 및 평가 시스템은 훈련생들에게 자신을 정확하게 평가하고(Davis et al. 2006) 행동 중 성찰이나 행동 후 성찰을 수행하는 방법을 가르치는 것에 어려움을 겪고 있다.

In addition to program decisions , trainees require assessment systems to provide them with the tools to develop skill in self-assessment. Current systems of training and assessment have struggled with the challenge of teaching trainees how to assess themselves accurately (Davis et al. 2006) and to carry out reflection-on-practice or reflection-in-practice (Eva & Regehr 2005).

CBME는 guided 자기평가를 용이하게 하기 위해 교사와 학습자 사이의 정기적인 의사소통을 요구한다. 최종 목표는 독립적인 연습 동안 평생 학습을 지원할 강화된 자기성찰 기술을 개발하는 것이다.

CBME requires regular communication between teacher and learner to facilitate guided self-assessment; the ultimate goal is to develop enhanced self-reflection skills that will support lifelong learning during independent practice.

피드백과 학생 성과

Feedback and student outcomes

기존의 접근 방식과 달리, CBME는 성과 달성 마일스톤에 대한 이해와 투명성을 높였으며, 따라서 교육자와 교육 기관 모두에 대한 책임감을 높여준다. CBME에 사용되는 실무 중심의 역량 프레임워크는 피드백과 평가를 빈번하게 사용한다면 trainee의 향상된 관심을 촉진할 수 있다.

In comparison with the traditional approach, CBME provides greater understanding and transparency of achievement milestones, and thus improved accountability for both trainees and training organizations. The more practice-focused competency frameworks used in CBME can also foster improved attention to trainees, given the more frequent use of feedback and assessments.

평가는 관찰된 행동과 원하는 행동 사이의 차이를 줄이겠다는 목표를 가지고, 바람직한 관행을 식별하고 장려해야 한다.

Assessments should identify and encourage desired practice, with the goal of reducing the differences between observed and desired practice.

훈련생과 공유하는 형성적 피드백은 비효과적이거나 안전하지 않은 행동을 교정하는 데 도움을 줄 수 있으며, 효과적인 행동을 강화한다(Bazrafkan et al. 2013).

Formative feedback shared with trainees can help them correct behavior that is ineffective or unsafe, and reinforces behaviors that are effective (Bazrafkan et al. 2013).

형성적 피드백을 공유하기 위해서는 학습자가 자신의 강점과 약점을 인식할 수 있는 안전한 환경을 조성해야 한다(Bazrafkan et al. 2013).

The sharing of formative feedback creates a safe environment where learners can gain awareness of their strengths and weaknesses (Bazrafkan et al. 2013).

임상의들의 참여가 극대화되고 지속되기 위해서는, 평가는 실제 임상의들의 활동과 resonate하도록 임상의 작업흐름과 연계되어야 한다. CBME에서 WBA에 대한 강조가 증가하면 학습자와 평가자 사이의 열린 대화와 풍부한 대화를 통해 개발을 촉진할 수 있는 기회가 생깁니다. 교수진은 이러한 피드백을 전달하고 긍정적이고 안전한 환경을 조성하는 데 능숙해야 하며, 학습자는 중요한 피드백을 기꺼이 받아들여야 합니다.

Assessment needs to link to (and be embedded in) clinical workflow, resonating with practising clinicians so that their participation is maximized and sustained. The increased emphasis on workplace assessment in CBME should create the opportunity for an open and rich dialogue between learners and their assessors to promote development. Faculty must be skilled in conveying this feedback and in creating a positive and safe environment, and learners will need to be willing to accept critical feedback.

일단 무능의 영역이 확인된다면, 협력적 접근법은 반복된 평가의 수행을 촉진한다. CBME는 "경계성" 레지던트가 통과/실패 판단의 결과의 영향을 받기보다는, 각각의 중요한 이정표를 진정으로 달성하도록 만든다. remediation과 enrichment은 CBME라는 동면의 양면이다.

A collaborative approach fosters repeated assessment once an area of dyscompetence (Frank et al. 2010) has been identified and remediated. This allows “borderline” residents not to be pushed through as an effect of dichotomous pass/fail judgments, but to truly achieve each significant milestone. Remediation and enrichment are the two sides of the CBME coin (Schuwirth & van der Vleuten 2011).

현재 많은 평가 시스템이 경계성 또는 failing 교육자에게 상당한 노력과 에너지를 집중하고 있으며, 한 가지 이유는 "Fail 주는 것에 fail"한 것을 극복할 적절한 준비가 되지 않은 문화 때문이다. CBME는 교육자들이 좀 더 천천히 진보하는 사람들을 돕도록(배제하도록)할 것을 요구하며, 동시에 이미 표준을 충족하는 학습자에게는 accelerating과 challenging하도록 만든다.

Many assessment systems currently focus substantial effort and energy on the borderline or failing trainee with a culture that is not adequately prepared to overcome the “failure to fail” (Dudek et al. 2005). CBME challenges educators to assist (or exclude) those progressing more slowly, while shifting more attention to accelerating and challenging learners who are satisfying the standards.

학습자는 [특정 분야의 학습에 대해 "역량"을 달성하여 완료되었다고 생각할 위험]이 있으며, 의사로 역할을 하는 내내 지속적으로 학습을 해야할 필요를 인식하지 못할 수도 있다. CBME의 평가는 성취 또는 달성 실패뿐만 아니라 수월성excellence에 관한 언어를 개발할 필요가 있다.

In view of the risk that learners may infer that their learning in a particular area is complete on achieving “competence” and fail to appreciate the need for continual learning throughout their career, assessment in CBME needs to develop a language around excellence and not just around the achievement, or failure to achieve, competence.

Authentic 환경에서의 평가

Assessment in the authentic environment

Holmboe et al. (2010)은 학습과 평가가 발생하는 임상 마이크로 시스템을 묘사한다. 개개 역량 및 역량 집합을 달성하기 위하여 수행하는 deliberate practice와 관련된 WBA는 잦은 형성 평가와 다수 관찰자에 의한 지원을 필요로 한다.

Holmboe et al. (2010) describe the clinical microsystems in which learning and assessment occur. Work-based assessment related to the deliberate practice of both individual and sets of competencies requires support by frequent formative assessment and multiple observations.

최근의 연구는 평가 도구에서 명확한 임상적 앵커clinical anchors가 사용되었을 때 평가자 간 일치가 향상됨을 보여주었다. 평가자 훈련의 어려움 중 하나를 줄이는 방법은, 평가 도구에서 (임상 평가자의 언어를 더 많이 사용함으로써) recognizable clinical rating을 사용하는 것이다.

Recent work noted enhanced agreement when clear clinical anchors were used in an assessment tool. One of the difficulties of assessor training may be reduced by the greater use of recognizable clinical ratings (that is, use the language of clinical assessors) in assessment tools.

평가자의 경우, 이러한 다수의 관찰은 적절히 구성된 역량 위원회의 구성원 간에 공유되어야 한다. 이 위원회는 "안전한 장소"에서 합법적으로 기능함으로써 개인 훈련자의 니즈에 대해 자유롭게 토론할 수 있다.

For the assessors, these multiple observations ought to be shared among the members of a properly constituted competency committee that can function in a “safe place” legally (along the lines of peer-review or morbidity meetings) to allow free discussion about the needs of individual trainees.

"군중의 지혜" 또는 [역량 판단을 위한 집단 과정]이 중요하다는 증거가 대두되고 있다. 어떤 하나의 방법이나 다수 방법의 조합도 의사에게 필요한 모든 능력을 평가할 수 없기 때문에, 그룹 판단은 역량에 대해 가능한 최선의 결정을 내릴 수 있게 해준다. 또한 그룹 프로세스는 단일 평가자 도구를 누적한 것보다 프로페셔널리즘과 관련된 문제를 더 잘 식별할 수 있다(Hemmer et al. 2000).

There is emerging evidence that the “wisdom of crowds” or a group process in making judgments of competence is important. Since no single method or combination of methods can assess all of the competencies required of a physician, group judgment can produce the best possible decisions about competence. Additionally, the group process may be better able to identify issues concerning professionalism than cumulative single-assessor tools (Hemmer et al. 2000).

교수자를 서포트하는 것으로는 적절한 시간을 확보해줌으로써, 작업 기반 평가를 완료하고 후보자의 전체 진행 상황을 "판단"하는 그룹에 참여할 수 있게 해야한다.

Faculty support to ensure that adequate time is dedicated for completing work-based assessments and participating in groups that “judge” the overall progression of the candidate is critical.

1~2개월마다 로테이션이 바뀜으로서 생기는 파편적 학습 환경은 평가의 연속성을 떨어뜨린다. 각 평가자(또는 평가자 팀)이 [각 학습자를 대상으로 아무 정보도 없이 시작하는 것]이 매번 반복되지 말아야 합니다. 임상에서 우리는 관리에 필수적인 임상 세부 사항을 공유하지 않은 상태로 환자를 인계하지 않는다. 학습자를 인계할 때도 마찬가지이다. 불완전한 핸드오버는 불필요한 위험을 발생시킬 수 있습니다. 발달 궤적에 대한 ownership은 학습자에게 달려 있지만, 적절한 이정표 또는 EPA를 달성하고 있는지 여부를 결정하기 위해서는 그 정보가 교수진과 공유되어야 합니다. 성과 결과를 전향적으로 제공함으로써, 우리는 그 다음의 평가자들이 entrustment 결정을 내릴 때, 그러한 정보의 가치에 반하여 생길 수 있는 편향의 위험을 balance해야 한다.

The fragmented learning environment created by a change of rotations every one or two months results in a lack of continuity in assessment. The perpetual cycle of each assessor (or assessor team) starting from scratch with each learner should not be acceptable. In the clinical context, we do not hand over a patient without sharing clinical details essential for care, and we should expect a similar forwarding of information in the handover of learners. An incomplete handover can create unnecessary risk. Although ownership of the developmental trajectory rests with the learner, it also needs to be shared with faculty to determine whether the appropriate milestones or EPAs are being achieved. In feeding performance results forward, we must balance any risk of biasing subsequent assessors against the value of such information to their entrustment decisions.

학습과 평가 연속체

The learning and assessment continuum

매일 75건 이상의 새로운 무작위 통제 임상시험과 11건의 체계적인 리뷰가 출판되고 있으며, 의학 지식은 그 어느 때보다 빠르게 확장되고 있다(Bastian et al. 2010). 확립된established 의사들이 새로운 의학 지식을 그들의 후배들만큼 일관되게 통합하지 않는 다는 것은 놀라운 일이 아니다. (Lipner et al. 2011) 또한 (지속적 학습과 적절한 지속적인 평가에 대한) CBME 접근방식을 적용한다면, 사용빈도가 떨어지면서 자연적으로 발생하는 지식과 기술의 쇠퇴와 연령의 영향을 완화할 수 있으며, 적어도 그러한 상태를 인식할 수 있다(Baxter et al. 2014). Lockyer 등은 평가가 임상의사의 CPD에서도 일상화되기 위해서는 레지던트 교육 이후까지 확장되어야 한다고 주장하였다.

Medical knowledge is expanding faster than ever with the publication of over 75 new randomized controlled trials and 11 systematic reviews every day (Bastian et al. 2010). It should not surprise us if established physicians are not integrating new medical knowledge as consistently as their junior colleagues (Lipner et al. 2011). Additionally, the decay in knowledge and skills that occurs naturally with infrequent use and the effects of age can be mitigated or at least recognized with a CBME approach to continuing learning and appropriate ongoing assessment (Baxter et al. 2014). As Lockyer et al. (2017b) discuss in this issue, assessment needs to extend beyond the completion of residency training to become routine within clinicians’ continuing professional development (CPD).

CBME는 학습 개발에 대한 정보의 논리적 구조를 제공하여 다음 교육 단계로 나아가게 할 수 있으며, CPD로 나아가게 해준다. 성과에 대한 유익한 평가는 CPD 프로파일을 구성하거나, 세부전공 또는 practice focus에도 영향을 미칠 수 있습니다.

CBME can provide a logical structure for information on learning development to flow forward to the next training stage and into CPD. An informative appraisal of achievements can help structure the CPD profile or possibly influence areas of subspecialization or practice focus.



CBME로 전환하는 근거 중 하나는, 교육자와 교육 기관 모두가 성과 수준에 대해서 더 명확하게 이해할 수 있으며, 책무성을 더 높여준다는 것이다. 이러한 명확하고 보다 실무 중심적인 역량 프레임워크의 한 가지 함축적 의미는 모든 훈련생들에게 더 많은 관심을 기울이는 것이다.

The rationale for moving to CBME includes a clearer understanding of levels of achievement and improved accountability of both trainees and training organizations. One implication of these clearer and more practice-focused competency frameworks is greater attention to all trainees.

CBME에서의 평가는 역량 프레임워크에 기초해야 하며, 바람직한 성과와 관찰된 성과 간의 차이에 기초한 교육 계획을 개발해야 한다.

Assessment within CBME should be based on competency frameworks and develop an educational plan based on the differences between desired and observed performance.

CBME에서 평가의 초점은 명확하고, 정기적이며, 예상되는 피드백을 바탕으로 한 개인의 발달에 있다. CBME에서의 평가는 단순히 역량을 갖추는 것이 아니라, 학습자와 프로그램이 탁월함을 추구하도록 inspire하는 것입니다.

The focus for assessment in CBME is on individual development based on clear, regular, and expected feedback. Assessment in CBME is not simply about meeting bare competence, but is also intended to inspire learners and programs to strive for excellence.

CBME 맥락에서 타당성이란 단일 도구의 통계 분석에서 벗어나, 평가 프로그램에서 도출된 추론 및 행동에 대한 평가로 전환해야 한다. Miller의 고전적 서술의 "does" 수준을 목표로 하는 진정한 직장 기반 평가는 이러한 타당성의 개념에 매우 중요합니다. Progression이나 능력에 대한 판단은 "군중의 지혜"을 포함해야 한다.

Validity in the context of CBME requires a shift away from the statistical analysis of single tools toward the evaluation of inferences and actions that derive from program of assessment. Authentic workplace-based assessment targeted at the “does” level of Miller’s classic description is critical to this notion of validity. Judgments of progression or competence need to involve the “wisdom of crowds”

Cook DA, Brydges R, Ginsburg S, Hatala R. 2015. A contemporary approach to validity arguments: a practical guide to Kane's framework. Med Educ. 49:560–575.

Lockyer J, Bursey F, Richardson D, Frank JR, Snell L, Campbell C; ICBME Collaborators. 2017a. Competency-based medical education and for continuing professional development: a conceptualization change. Med Teach. 39:617–622. ==

Englander R, Frank JR, Carraccio C, Sherbino J, Ross S, Snell L; ICBME Collaborators. 2017. Toward a shared language for competency-based medical education. Med Teach. 39:582–587. ==

Schuwirth LWT, van der Vleuten C. 2012. Programmatic assessment and Kane’s validity perspective. Med Educ. 46:38–48.

Competency-based medical education (CBME) is an approach to the design of educational systems or curricula that focuses on graduate abilities or competencies. It has been adopted in many jurisdictions, and in recent years an explosion of publications has examined its implementation and provided a critique of the approach. Assessment in a CBME context is often based on observations or judgments about an individual's level of expertise; it emphasizes frequent, direct observation of performance along with constructive and timely feedback to ensure that learners, including clinicians, have the expertise they need to perform entrusted tasks. This paper explores recent developments since the publication in 2010 of Holmboe and colleagues' description of CBME assessment. Seven themes regarding assessment that arose at the second invitational summit on CBME, held in 2013, are described: competency frameworks, the reconceptualization of validity, qualitative methods, milestones, feedback, assessment processes, and assessment across the medical education continuum. Medical educators interested in CBME, or assessment more generally, should consider the implications for their practice of the review of these emerging concepts.


CBME에서 평가의 핵심 원칙(Med Teach, 2017)

Core principles of assessment in competency-based medical education 

Jocelyn Lockyera, Carol Carracciob, Ming-Ka Chanc, Danielle Hartd,e, Sydney Smeef, Claire Touchief,g, Eric S. Holmboeh and Jason R. Franki,j; on behalf of the ICBME Collaborators

aCumming School of Medicine, University of Calgary, Calgary, Canada; bAmerican Board of Pediatrics, Chapel Hill, NC, USA; cMax Rady College of Medicine, Rady Faculty of Health Sciences, University of Manitoba, Winnipeg, Canada; dHennepin County Medical Center, Minneapolis, MN, USA; eUniversity of Minnesota Medical School, Minneapolis, MN, USA; fMedical Council of Canada, Ottawa, Canada; gFaculty of Medicine, University of Ottawa, Ottawa, Canada; hAccreditation Council for Graduate Medical Education, Chicago, IL, USA; iRoyal College of Physicians and Surgeons of Canada, Ottawa, Canada; jDepartment of Emergency Medicine, University of Ottawa, Ottawa, Canada



CBME가 설립되면서, 초점은 학습을 위한 평가로 옮겨가고 있다. 반 데르 베루텐 외 연구진들은 "평가가 그 자체로 목표가 될 때, 그것은 사소하고 결국 버려질 것이다. 평가는 학습을 유도해야 하며, 일상적 루틴 속에 통합되어 있으며, 궁극적으로는 학습 관행에 없어서는 안 될 것으로 여겨질 때 그 효용성을 갖는 것이다."(2010년, 페이지 712).

as CBME becomes established, the focus is shifting to assessment for learning. Van der Vleuten et al. suggest that “whenever assessment becomes a goal in itself, it is trivialized and will ultimately be abandoned. Assessment has utility insofar as it succeeds in driving learning, is integrated in a routine and ultimately comes to be regarded as indispensable to the learning practice.” (2010, p. 712).

슈워스와 반 데르 베레텐(2006)은 새로운 심리학적 모델을 호소하며, 학습자가 미리 결정된 결과를 달성했는지 여부만을 묻는 대신 새로운 심리학적 모델을 요구하기 위해 우리는 보다 중요한 질문을 제기합니다. "미래에 이 학생에게 어떤 케이스가 주어졌을 때, 이 학생의 수행능력이 기준에 미치지 못할 위험성은 얼마나 클까?"

In a plea for new psychometric models, Schuwirth and van der Vleuten (2006) proposed that, rather than asking only whether a learner has achieved a predetermined outcome, we pose a more critical question: How big is the risk of the student performing below the standard in a future case given his or her history and the current observation?

레지던트 교육을 마친 의사가 안전하고 효과적이며 환자 중심적인 치료를 제공할 수 있는 가능성을 극대화하기 위해 평가 프로그램이 갖추어야 할 요소는 다음과 같습니다. 

  • 활동(정보의 수집, 합성, 해석, 가중치 할당

  • 지원(교수개발, 심리측정학적 분석)

  • 문서화(규칙, 블루프린트, 정보 관리) 

  • 개선(연구, 개발, 학습 환경, 변화 관리 등에 대한 개선

  • (과학 연구, 외부 검토, 비용-효과성, 정치 및 법적 요건과 관련한 책임)

to maximize the probability that a physician graduating from residency training can provide safe, effective, patient-centered care, the elements of an assessment program include 

  • actions (collecting, synthesizing, interpreting, and assigning weight to information); 

  • support (faculty development and psychometric analysis); 

  • documentation (rules, blueprints,and information management); 

  • improvement (with regard to research, development, the learning environment, and change management); 

  • accountability (with regard to scientific research, external review, cost effectiveness, and political and legal requirements) (Dijkstra et al. 2010).

더욱이, CBME의 평가는 레지던트 훈련에서 종료되어서는 안 된다. 역량은 한 번 달성하고 끝나는 것이 아니라, 역량에 대해서는 언제나 재평가가 필요한 다른 맥락이나 상황이 존재한다(Eva et al. 2013).

Moreover, assessment in CBME should not end with residency training. Competence is not something one can attain once and for all: there will always be another context or occasion that necessitates reassessment (Eva et al. 2013).

의미 있는 역량 기반 평가에 대한 우리의 비전은 다음을 포함해야 합니다. 

  • (1) 지속적인, 적시에 이루어지는 평가, 또한 평가의 지속적인 발전을 보장하기 위한 종합적인 정기 검토(Archer 2010) 

  • (2) 복수의 평가자와 평가법을 적절히 활용하여 옳은 목적을 위해 올바른 평가를 수행하고, 평가자의 피로를 방지(Norcini et al. 2011; Hodge 2013). 

  • (3) 역량에 대한 판단에 도달하기 위해 그룹 프로세스를 통하여 수집된 데이터를 통합 

  • (4) 모든 평가자에 대한 교수개발. 근무지에서 훈련생을 관찰하는 사람이야말로 진정한 측정 도구이다. 

  • (5) 피드백이 실제에 통합되도록 형성 피드백 제공자와 수신자 사이의 관계를 최적화한다(Watling et al. 2012).

Our vision for meaningful competency-based assessment should include 

  • (1) timely ongoing assessments, with comprehensive periodic reviews to ensure continued progress (Archer 2010); 

  • (2) the best use of multiple assessors and assessments to enable the right assessment to be made at the right time for the right purpose, while avoiding assessor fatigue (Norcini et al. 2011; Hodges 2013); 

  • (3) a synthesis of data collected through group processes to reach judgments about competence; 

  • (4) faculty development for all assessors, who, as observers of trainees in the workplace, are the true measurement instrument; and 

  • (5) optimized relationships between the givers and receivers of formative feedback to enhance the incorporation of feedback into practice (Watling et al. 2012).

CBME의 핵심 평가원칙

Core assessment principles of CBME

학습을 위한 평가

Assessment for learning

평가 전략은, 각 단계에 맞춰서 제공되는 형성적 피드백이 학습뿐만 아니라 평가에도 기여하고 정보를 제공합니다. 'Does' 수준에서 보자면, 평가는 사람이 일하고 배우는 진정한 맥락의 일부가 된다.

(Table 1). The assessment strategies tied to each level inform and contribute to learning as well as assessment, provided that formative feedback is given. At the “does” level, assessment becomes part of the authentic context in which one works and learns;

학습자가 자신의 학습에 적극적으로 참여하는 것은 평생 학습에 있어 기술을 개발하는 데 중요한 것으로 오랫동안 이해되었다. 평가는 학습자에 의해 및 학습자와 함께 by and with 수행해야 합니다. 이 원칙을 구체화하는 전략 두 가지이다. 

    • Informed self-assessment: 학습자가 학습을 guide하기 위해서 [내부 소스]뿐만 아니라 [신뢰할 수 있는 외부 소스]로부터 데이터를 이끌어낼 수 있도록 권장

    • 포트폴리오: 학습자가 자신의 학습 내용을 기록하고 성찰하도록 권장

The active engagement of learners in their own learning has long been understood as crucial to developing skills in lifelong learning (Dewey 1974; Knowles 1975). Assessment should be performed by and with the learner. Two strategies that embody this principle are 

    • informed self-assessment, whereby the learner is encouraged to draw on data from credible external as well as internal sources to guide learning (Sargeant et al. 2010), and 

    • the use of portfolios, which encourage learners to document and reflect on their learning (van Tartwijk & Driessen 2009).

자신을 정확하게 평가하기는 어렵다. 그러나, 자기평가가 성찰을 동반할 경우, 특히 "reflection-in-action RIA"가 포함된 경우, 학습자가 언제 멈추고 피드백이나 도움을 요청해야 할지를 알 수 있습니다(Eva & Regehr 2005). 이 행동을 "자기 주도적 평가 탐색"(Eva & Regehr 2008)이라고 한다. 펠그림 등은 교수진이 제공한 피드백의 특수성과 학습자의 후속 성찰의 특수성 사이의 연관성을 보여주었다. Sarnard 외 연구진(2011)은 특히 피드백과 결합된 경우, 정보에 근거한 자기 평가informed self-assessment가 전문적 성장을 위한 강력한 촉매가 될 수 있다는 것을 발견했다.

It is difficult to accurately assess oneself (Eva & Regehr 2007). However, when self-assessment involves reflection, particularly “reflection-in-action,” it allows the learner to know when to stop and ask for feedback or help (Eva & Regehr 2005). This behavior is termed “self-directed assessment seeking” (Eva & Regehr 2008). Pelgrim et al. (2013) demonstrated the connection between the specificity of the feedback given by faculty and the subsequent specificity of reflections by learners,. Sargeant et al. (2011) also found that informed self-assessment, especially when combined with feedback, can be a powerful catalyst for professional growth.

CBME와 포트폴리오 평가의 핵심은 학습자가 그 과정에 적극적으로 참여하여 평가가 "교육가능한 순간teachable moment"으로 이어지는 것이다.

Fundamental to both CBME and portfolio assessment is the active engagement of the assessment as the learner in the process, leading to “teachable moment.”

포트폴리오의 사용은 "포트폴리오하다"라는 능동태로서 구상하는 것이 가장 적절하다.

The use of portfolios is best conceived in an active sense: “to portfolio” (Friedman Ben David et al. 2001).

학습의 평가

Assessment of learning

전통적으로 평가는 교육 성과에 초점을 맞추고 있다.

Traditionally, assessment has focused on educational outcomes

CBME는 작업 기반 평가로 전환되므로, 우리의 생각 역시 훈련생들의 능력이 환자에게 제공하는 관리 품질에 미치는 영향을 고려하는 평가로 전환되어야 한다(Kogan & Holmboe 2013). 의학 교육은 학습자의 학습성과 개선뿐만 아니라 환자의 치료성과 개선에도 필요하며, 후자가 궁극적인 목표이다.

With CBME comes a shift to work-based assessment, and our thinking must shift to assessments that take into account the impact of trainees’ competence on the quality of care provided to the patient (Kogan & Holmboe 2013). Medical education will need not only to improved learner outcomes but also to better patient care, the latter being the ultimate goal.

평가 최적화

Optimizing assessment

CBME 시대의 평가 프로그램을 최적화하려면 

(1) 복수의 방법 

(2) 복수의 평가자

(3) 평가자 선정 및 훈련 

(4) 심리측정학 역할의 재개념화

(5) 역량에 대한 중요한 결정을 내릴 때 그룹 과정의 중요성 인식

Optimizing an assessment program in the era of CBME will require 

(1) multiple methods; 

(2) multiple assessors; 

(3) the selection and training of assessors; 

(4) a reconceptualization of the role of psychometrics; and 

(5) a recognition of the importance of group process in reaching critical decisions about competence.

다양한 방법

Multiple methods

평가 프로그램은 구조화된 척도와 구조화되지 않은 척도를 모두 사용하여 정보를 목적에 맞추어 수집해야 하며, 정량적 데이터와 정성적 데이터를 평가해야 하며, 사용되는 데이터의 풍부함과 엄격함이 의사결정의 부담stakes에 부합하도록 해야 합니다. 향후에 학습자가 당면할 real-world practice에 대한 추론을 뒷받침하는 정보를 수집하고자 한다면, 평가 프로그램은 nonstandardized 방법을 반드시 포함해야 한다(van der Vleiten et al. 2012).

An assessment program 

    • should collect information purposefully, using both structured and unstructured measures; 

    • it should value quantitative and qualitative data and 

    • ensure that the richness and rigor of the data used align with the stakes of the decision being made (Schuwirth & Ash 2013). 

A comprehensive program must include nonstandardized methods if it hopes to gather information that supports inferences about future real-world practice (van der Vleuten et al. 2012).

모든 평가 방법에는 한계가 있기 때문에, 한 가지 기법의 단점을 보완하기 위해 여러 가지 방법이 필요하다(van der Vleuten 1996). 질적 데이터에 의존하는 작업 기반 평가는 방어가능할 뿐만 아니라 바람직할 수 있다. CBME의 약속을 실현하기 위해 의학교육자와 훈련 프로그램은 업무 기반 평가의 "지저분함"과 정성적 데이터에 대한 의존성을 수용해야 한다.

Because all assessment methods have their limitations, multiple methods are needed to compensate for the shortcomings of any one technique (van der Vleuten 1996). work-based assessments, which rely on qualitative data, can be both defensible and desirable. To realize the promise of CBME, medical educators and training programs will need to embrace the “messiness” of work-based assessment and its reliance on qualitative data.

다양한 평가자

Multiple assessors

우리는 평가자의 단점을 보완할 다수의 평가자가 필요하다.

we need multiple assessors to compensate for rater shortcomings

과거에는, 이러한 단점들 때문에 [전문가의 총괄적 판단]이 아니라 OSCE에서 사용하는 것과 같은 [더 신뢰할 수 있는 체크리스트]로 평가하도록 만들었다. 그러나 이후에 총괄적 평가와 체크리스트를 비교했을 때 전자가 더 신뢰할 수 있다는 놀라운 결과가 나왔다(Regehr et al. 1998).

In the past, such shortcomings have shifted assessment strategies away from expert global judgments and toward more “reliable” checklists, such as those used in observed structured clinical examinations. However, subsequent comparisons of expert judgments with checklists yielded the surprising finding that the former were more reliable (Regehr et al. 1998).

평가자 교육은 평가자를 교정하고, 평가자 불일치에 따르는 이러한 분산의 일부(전부는 아님)를 해결하는 데 도움이 되는 것으로 나타났습니다. 깅리치 등은 평가자가 어떤 사람을 처음 만나게 되면, 과거에 만났던 사람과의 상호작용으로부터 형성된 스키마를 근거로 새로 만난 사람을 분류한다고 추정하였으며, 이는 패턴 인식이 임상 의사결정에 영향을 미치는 영향과 거의 동일하다.

Rater training has been shown to be helpful in calibrating raters and in addressing some – but not all – of this variance. Gingerich et al. (2011) postulate that raters spontaneously categorize new individuals on the basis of preformed schemas of interactions with previous individuals, in much the same way as pattern recognition influences clinical decision-making.

평가자 선발 및 훈련

Assessor selection and training

누구를 평가자로 포함시키는지를 결정할 때(종종 쉽게 짐작하는 것보다) 누가 가능한지, 누가 자원하는지, 누가 공식적으로 책임을 맡고 있는지, 누구에게 구체적인 과제나 사건에 대한 평가를 믿고 맏길 수 있는지에 따라 달라진다. 관찰자 및 평가자로서의 능력은 부차적인 문제인 경우가 흔하다.

More often than may be acknowledged, assessor selection depends on who is available, who volunteers, who has formal assessment responsibilities, and who can be convinced to perform the assessment for a specific task or event. Secondary consideration, if any, is given to the assessors’ skills as an observer and assessor.

평가자를 교육하는 주된 이유 중 하나는 학습자에 의해서 care를 받는 환자들이 안전하고 효과적이며 환자 중심적인 치료를 받도록 하기 위함이다(Kogan et al. 2014).

One of the primary reasons to train assessors is to ensure by that patients cared for learners receive safe, effective, patient-centered care (Kogan et al. 2014).

한 사람이 어떻게 유능한 평가자로 변모하는지 생각해볼 필요가 있다. 평가자로서 필요한 지식은 두 가지이다: 평가를 해야 하는 역량에 대한 지식(Ponnamperuma 2013)과 평가자의 고유 역할인 관찰 및 기록 작업에 대한 이해이다(Kogan & Holmboe 2013)

we need to think about how someone becomes a competent assessor. The knowledge required is at least twofold: knowledge of the competencies being assessed (Ponnamperuma 2013), and an understanding of the observational and recording tasks intrinsic to the assessor role (Kogan & Holmboe 2013).

CBME에서의 평가를 위해서 각 기관은 평가가 학습learning에 통합되는 교육 커뮤니티를 만들고, 나아가 평가 기술 습득이 teaching에 통합되게 해야 한다.

Moving to CBME will challenge institutions to create educational communities in which assessment is integrated into learning and, moreover, the acquisition of assessment skills is integrated into teaching.

훈련의 필요성은 분명한 것 같지만, 어떻게 해야 하는지는 덜 명확하다.

Although the need for training seems clear, how to go about it is not always so.

심사원 훈련분야에서 어느 정도의 가능성을 보여주는 기술은 

    • 행동 관찰 훈련(BOT), 

    • 성능 차원 교육(PDT) 

    • 기준 훈련 프레임(FoRT) 

The techniques that show some promise in the field of assessor training are 

    • behavioral observation training (BOT), 

    • performance dimension training (PDT), and 

    • frame of reference training (FoRT). 

    • BOT는 관찰 프로세스에 익숙해지게 만들고, 관찰 스킬을 향상시킨다. 세 가지 전략이 있다: 

      • 관찰 빈도 증가("연습해야 완벽해진다" 원칙)

      • 관찰을 위한 적절한 준비 

      • 관찰 기록을 위한 간단한 도구 제공 

    • PDT는 평가자가 역량에 대한 행동적 기준 및 표준을 학습하고 적용하는 데 도움이 되는 대화형 그룹 프로세스이며 FoRT의 중요한 precursor이다(Holmboe et al. 2004). 

    • FoRT는 평가자가 성과의 여러 수준을 정확하게 구별할 수 있도록, [평가자의 판단]을 [공통의 준거에 기반한 frame of reference]와 일치시키기 위한 대화형 프로세스이다(Leavens 2001; Kogan et al. 2014). 

    • BOT familiarizes assessors with observation processes and improves observation skills by means of three strategies: increased frequency of the observation (the “practice makes perfect” principle); proper preparation for observations; and provision of simple tools to record observations (Holmboe et al. 2008). 

    • PDT is an interactive group process that assists assessors in learning and applying behavioral criteria and standards for competencies and is an important precursor of FoRT (Holmboe et al. 2004). 

    • FoRT is also an interactive process that seeks to align assessor judgments with a common criterion-based frame of reference to enable assessors to make accurate distinctions between levels of performance (Lievens 2001; Kogan et al. 2014). 

PDT와 FoRT 모두 학습과 신중한 연습을 위해 사례 자료(비디오 테이프 검토, 객관적인 구조화된 교육 검사 등)의 사용에 의존합니다.

Both PDT and FoRT rely on the use of case material (video tape review, objective structured teaching examination, etc.) for learning and deliberate practice.

평가자 훈련만으로 평가자 인식에 내재된 모든 한계를 극복할 수 없다(Gingerich et al. 2011; Yeates et al. 2012; Govaerts & van der Vleiten 2013). 평가자로서의 능력은 선천적인 것이 아니라 습득가능한 것이다. 이는 장시간에 걸친 DP와 교정을 필요로 한다(Berndonk et al. 2013; Govaerts et al. 2013; Kogan & Holmboe 2013). 따라서, 아무리 잘 만들었떠라도, 일회성 훈련 개입은 충분하지 않다.

Training in assessment cannot overcome all the limitations inherent in rater cognition (Gingerich et al. 2011; Yeates et al. 2012; Govaerts & van der Vleuten 2013), and much research into effective rater training is needed. Assessment ability is acquired, not innate; it requires deliberate practice and refinement over time (Berendonk et al. 2013; Govaerts et al. 2013; Kogan & Holmboe 2013). Therefore, one-time training interventions, no matter how appropriate, are insufficient.

심리측정의 역할 재개념화

Reconceptualizing the role of psychometrics

Norcini 외 연구진(2011)은 "좋은 평가"는 타당성(또는 일관성), 재현성 또는 일관성(신뢰성), 다른 평가 접근법에 대한 동등성, 실현가능성, 수용가능성, 교육적 효과, 학습에 대한 촉매적 효과로 특징지어져야 한다고 결론지었다.

Norcini et al. (2011) concluded that a “good assessment” should be characterized by 

    • validity or coherence; 

    • reproducibility or consistency (reliability); 

    • equivalence with other assessment approaches; 

    • feasibility; 

    • acceptability; and 

    • a consideration of the educational effect and/or 

    • the catalytic effect on learning.

신뢰성과 타당성에 대한 전통적인 생각에 대한 의문이 제기되었다. Hodges는 "주관성의 개념은 편견의 함축으로 간주되었으며, 적절한 표본 추출이 편견을 완화시킴에도 불구하고, 표준화가 곧 신뢰성으로 가는 길로 홍보되어왔음"을 지적했다. 신뢰할 수 없는 점수를 산출하는 객관적 척도(예: 표준화된 점검표)가 존재할 수 있으며, 반대로 신뢰할 수 있는 점수를 제공하는 주관적 척도(글로벌 등급 평가 척도를 사용한 전문가 판단)도 존재할 수 있다(van der Vleuten 1996).

traditional thinking about reliability and validity was questioned. Hodges (2013) pointed out that the notion of subjectivity had taken on the connotation of bias, and that standardization was touted as the ticket to reliability, even though adequate sampling mitigates bias (Eva & Hodges 2012) and is the main determinant of reliability (van der Vleuten & Schuwirth 2005). One can have objective measures (such as standardized checklists) that yield unreliable scores, and subjective measures (such as expert judgments using global rating scales) that provide reliable scores (van der Vleuten 1996).

타당성은 더 이상 도구의 고유한 속성이 아니다. 대신, 타당성 증거는 우리가 내리는 결정을 뒷받침하기 위해 우리가 사용하는 방법과 도구에 기초하여 축적하는 것이다. 타당성의 증거를 만드는 것은 우리가 만들고자 하는 추론과 판단을 구체화하는 것으로부터 시작한다.

Validity is no longer seen as an inherent property of a tool. Instead, validity evidence is something that we accumulate, on the basis of the methods and tools that we use, to support the decisions we make. Building evidence of validity is a process that begins with articulating the inference or judgment we want to make.

CBME가 도입된 이후, 여러 곳에서 공통적으로 평가를 위해 역량을 작은 단위의 행동으로 환원시켰다. 이러한 "원자화"는 trivialization으로 이어질 수 있고, 실제로 타당성을 위협할 수도 있다. 호지(2013년)는 "역량을 재구성"하기 위한 목적하에, 서로 다른 목적을 갖는 평가도구로부터 수집된 세부점수를 합산하는 것은 "방향이 반대opposite"이며, 타당성 위협이 된다고 강조하였다.

Since the introduction of CBME, a common practice has been to reduce competencies to small units of behavior for the purposes of assessment. This “atomization” can lead to trivialization and may actually threaten validity (van der Vleuten & Schuwirth 2005). Hodges (2013) also highlights the threat to validity posed by the “opposite” practice of aggregating sub-scores from instruments with different purposes to “reconstitute competence.”

책임 있는 전문 활동(EPA)과 마일스톤 프로젝트는 이러한 우려에 대응합니다.

entrustable professional activities (EPAs) and the Milestone Project respond to these concerns.

호지(2013년)에 따르면 "집단적 관점"은 [데이터 수집]과 [독립적인 판단의 통합 및 해석] 모두를 frame할 수 있다. 통합된 역량을 요구하는 전문 활동인 EPA에 기초한 전체론적 평가는 개별 역량에 대한 보다 세부적인 설명과 형성적 피드백의 자료substrate을 제공하는 이정표와 함께 역량 기반 평가를 진행한다.

Hodges (2013) suggests that a “collective perspective” can frame both data-gathering and the aggregation and interpretation of independent judgments. Holistic assessment based on EPAs, which are professional activities that require integrated competencies, in combination with milestones, which provide a more granular description of individual competencies and the substrate of formative feedback, will advance competency-based assessment.

그룹 프로세스의 필요성

Importance of group process

복수의 평가자가 필요함에도 불구하고 "모든 것"을 측정할 수 있는 평가자와 평가 방법의 조합은 없다. 통합 과정은 여전히 필수적이며, 그룹 판단은 entrustment 결정의 신뢰성을 최대화하는 최선의 방법일 수 있다. Schwind 외 연구진(2004)은 외과 전공의가 결여된 역량들 중 18%는 위원회에서의 논의에서만 탐지되었음을 발견했다.

Despite the need for multiple assessors, no combination of assessors and assessment methods can measure “all things.” A synthesis process is still essential, and group judgment may provide the best means of maximizing the reliability of entrustment decisions. Schwind et al. (2004) found that 18% of competency deficiencies in a surgery residency were detected only during discussion at a clinical competency committee.

정보 관리와 문서화

Information management and documentation

(Table 2).

현재 데이터 합성 및 통합은 많은 시간과 노력을 들여 수동으로 수행됩니다. 기술은 다음과 같은 도움을 줄 수 있다.

(1) 개인 및 프로그램 수준의 성능에 대한 신속한 반영 

(2) 진행 결정 및 학습자에 대한 기타 중요한 판단을 통지한다. 

(3) 개발 연속체를 따라 기술 진보에 관한 개별 학습자 피드백을 제공한다. 

(4) 학습의 필요성 및 성과 격차에 대한 훈련자의 반성을 자극하기 위해 대시보드(참조 그룹에 대한 개별 또는 프로그램의 성과를 시각적으로 표현)를 작성한다. 

(5) 프로그램 책임자를 위한 대시보드를 만들어 개별 및 총 학습자 진행 상황을 다른 프로그램의 지역 및 국가 동료 그룹과 비교하고 국가 또는 국제 표준에 대한 비교를 제공할 수 있다(Schumacher et al. 2014).

Currently, data synthesis and aggregation are done manually at great expense of time and effort. With these developments, technology can 

(1) prompt reflection on performance at the individual and program level; 

(2) inform progression decisions and other important judgments about learners; 

(3) provide individual learner feedback regarding skill progression along a developmental continuum; 

(4) create dashboards (graphic representations of an individual’s or program’s performance against a reference group) to stimulate trainees’ reflection on learning needs and performance gaps; and 

(5) create dashboards for program directors to compare individual and aggregate learner progress with local and national peer groups in other programs as well as to provide comparisons against national or international standards (Schumacher et al. 2014).

기술은 (인증 및 재검증 또는 인증 유지 관리를 포함한) 저부담과 고부담 상황 모두에서, 형성평가 및 총괄평가에 역할을 할 수 있다. 그러나 환자와 학습자 데이터의 보안이 매우 중요합니다.

Technologies could play a role in formative and summative assessments, in both low-stakes and high-stakes contexts, including for certification and revalidation or maintaining the maintenance of certification. However, security of patient and learner data will be critically important.

평가 프로그램 감사, 투명성, 책임성의 세 가지 문서 문제가 있습니다. 

There are three documentation issues to highlight: assessment program auditing, transparency, and accountability. 

  • 감사 추적은, 정성적 평가를 위한 타당성 증거의 일부로서, 모든 고부담 결정에서도 타당성 증거의 중요한 구성요소이다. 감사는 판단의 dependability 또는 conformability를 높여서 신뢰도를 확립한다(van der Vleuten et al. 2010). 감사에는 프로세스 문서화, 결과 서포트(예: 학습자가 의사결정에 의문을 제기한다면), 외부 검토자의 품질 증거 제공이 포함됩니다. ACGME가 학습자 마일스톤 평가를 위해 요구하는 임상 역량 위원회는 향후 감사 문서의 단계를 설정한다(Nasca et al. 2012). 
  • 투명성은 감사 추적을 생성하는 것과 관련이 있습니다. 이 두가지 모두에서 규칙, 증거, 사고 과정 및 의사결정 이유를 문서화하는 것이 필수적이다. 평가가 일련의 점수에 근거한 판단을 넘어, 그 점수에 대한 해석을 포함하는 것이 될 때, 최종적으로는 그 점수에 대한 해석이 더 신뢰할 수 있게 된다(Govaerts & van der Vleuten 2013).
  • 극적으로, 책무성이 필요하다. 종합적으로 정보를 종합하고 결정을 내리는 사람은 trainee는 물론, 더 큰 의료 시스템에 대해서도 책임이 있으며, 의사의 진급 능력에 대한 이 사람들의 판단을 신뢰할 수 있어야 한다.
  • The audit trail, which is part of the validity evidence for qualitative assessment, is likewise an important component of the validity evidence for any high-stakes decision. Auditing establishes trustworthiness by addressing the dependability or conformability of a judgment (van der Vleuten et al. 2010). Auditing involves documenting the process, supporting the outcome (e.g. if learners question a decision), and providing evidence of quality for external reviewers. The clinical competency committee required by the ACGME for assessing learner milestones sets the stage for auditing documentation going forward (Nasca et al. 2012). 

  • Transparency goes hand in hand with creating an audit trail, and documenting the rules, evidence, thought processes, and reasons for decision-making are essential to both. Taking assessment beyond a judgment based on a set of scores to a judgment that includes an interpretation of those scores should be more trustworthy in the end (Govaerts & van der Vleuten 2013). 

  • Ultimately, there has to be accountability. Those who synthesize and reach decisions are responsible to the trainee and to the larger health care system that trusts their judgments about a physician’s ability to progress further.

평가 시스템의 향상

Improving the assessment system

학습의 한 단계에서 다음 단계로 정보를 전달할 수 있는 프로그램은 학습자가 시간 경과에 따른 gap에 초점을 맞추고 strength에 기초할 수 있도록 합니다(Eva et al.2013). 마찬가지로, 프로그램 수준에서, 몇몇 훈련생들의 평가로부터 수집된 데이터를 취합하여 커리큘럼 효과를 평가하거나, 또는 내 코호트가 합리적인 기간 동안 원하는 역량 수준에 도달할 수 있는지 여부를 판단할 수 있다.

Programs that can forward information from one phase of learning to the next will enable learners to focus on gaps and build on strengths over time (Eva et al.2013). Similarly, at the program level, data collected from the assessment of several trainees can be aggregated to assess curriculum effectiveness or to determine whether a cohort within was able to reach desired levels of competence a reasonable period

프로그램은 어떤 환경에서 누가, 어떤 환경에서, 그리고 왜 작동하는지 계속 물어봐야 한다(Pawson & Tilley 1997). Pawson이 지적했듯이 프로그램 개입은 거의 언제나 지속적으로 개선되고 수정되어야 하는 "부분적 해결책"이다.

Programs should continually ask what works, for whom, in what circumstances, and why (Pawson & Tilley 1997). As Pawson has noted, program interventions are almost always “partial solutions” that must be continually refined and revised (Pawson 2013). 


Schuwirth LWT, Ash J. 2013. Assessing tomorrow’s learners: in competency-based education only a radically different holistic method of assessment will work. Six things we could forget. Med Teach. 35:555–559. ==

Harris P, Bhanji F, Topps M, Ross S, Lieberman S, Frank JR, Snell L, Sherbino J; ICBME Collaborators. 2017. Evolving concepts of assessment in a competency-based world. Med Teach. 39:603–608.

Hawkins RE, Durning SJ. 2017. Program evaluation. In: Holmboe ES, Durning SJ, Hawkins RE, editors. Practical guide to the evaluation of clinical competence. 2nd ed. Philadelphia: Elsevier; p. 303–331. XXX

Kane MT. 2013. Validating the interpretations and uses of test scores. J Educ Meas. 50:1–73.

Author information

The meaningful assessment of competence is critical for the implementation of effective competency-based medical education (CBME). Timely ongoing assessments are needed along with comprehensive periodic reviews to ensure that trainees continue to progress. New approaches are needed to optimize the use of multiple assessors and assessments; to synthesize the data collected from multiple assessors and multiple types of assessments; to develop faculty competence in assessment; and to ensure that relationships between the givers and receivers of feedback are appropriate. This paper describes the core principles of assessment for learning and assessment of learning. It addresses several ways to ensure the effectiveness of assessment programs, including using the right combination of assessment methods and conducting careful assessor selection and training. It provides a reconceptualization of the role of psychometrics and articulates the importance of a group process in determining trainees' progress. In addition, it notes that, to reach its potential as a driver in trainee development, quality care, and patient safety, CBME requires effective information management and documentation as well as ongoing consideration of ways to improve the assessment system.

[Indexed for MEDLINE]

CBME에서 양적 피드백과 질적 피드백(Med Teach, 2017)

Qualitative and quantitative feedback in the context of competency-based education

Ara Tekiana , Christopher J. Watlingb, Trudie E. Robertsc, Yvonne Steinertd and John Norcinie 

aDepartment of Medical Education, College of Medicine, University of Illinois, Chicago, IL, USA; bSchulich School of Medicine and Dentistry, Western University, London, ON, Canada; cMedical Education Unit, Leeds Institute of Medical Education, Leeds, UK; dCenter for Medical Education, McGill University, Montreal, QC, Canada; eFoundation for Advancement of International Medical Education and Research, Philadelphia, PA, US




(1) 성과에 초점을 맞춘다. 

(2) 능력을 강조한다. 

(3) 시간 기반 학습을 강조하지 않는다. 

(4) 학습자 중심성을 유도한다


(1) focuses on outcomes, 

(2) emphasizes abilities, 

(3) deemphasizes time-based learning and 

(4) promotes greater learner-centeredness.

피드백의 맥락에서 평가

Assessment in the context of feedback

놀랍게도, 피드백에 대한 연구는 그것이 가변적인 효과를 가지고 있다는 것을 나타낸다. (van de Ridder et al. 2015)

Surprisingly, the research on feedback indicates that it has a variable effect (van de Ridder et al. 2015).

이러한 가변적 효과에 대한 설명은 피드백 자체, 즉 질적인지 양적인지, 누가 그것을 전달하는지, 그것이 어떻게 전달되는지, 언제 전달되는지, 그리고 강사 및 학습자의 상황 및 개인적 특징은 무엇인지 등에 초점을 맞추는 경우가 많습니다. 그러나 좋지 않은 평가도 한몫을 할 수 있다. 피드백은 항상 평가에 따라 예측되며, 평가가 부정확할 경우 피드백은 기껏해야 비효과적이며, 최악의 경우는 해롭기 때문이다.

Explanations of these variable effects often focus on the feedback itself: whether it is qualitative or quantitative; who delivers it; how it is delivered; when it is delivered; and the situational and individual characteristics of the instructor and learner (Shute 2008). However, poor assessment may also play a role. Feedback is always predicated on assessment and if that assessment is inaccurate, feedback will be at best ineffective and at worst harmful.

이러한 어려움을 피하려면 측정 오차의 가장 큰 근원인 "수신자와 관찰자의 맥락특이성 효과"를 관리하는 것이 중요하다.

To avoid these difficulties, it will be important to manage the largest sources of measurement error, which are context specificity effects for recipients and observers.

피드백의 맥락에서 평가는 강점과 약점에 대한 추론을 서포트하고 교육적 인터벤션의 선택을 촉진해야 한다(Bennett 2009).

Assessment in the context of feedback should support inferences about strengths and weaknesses and facilitate the selection of educational interventions (Bennett 2009).

따라서, 피드백은 실행 계획과 분명한 연관성을 가져야 한다. 그러나 현실에서, 우리는 종종 피드백의 토대로 총괄평가를 사용한다. 그러나 총괄평가라는 책임감있는 측정은 전반적인 학습 추정치를 제공하기 위해 고안되었으므로, 종종 강점과 약점에 대한 구체적인 정보가 부족하고, 특정한 교육적 개입과 관련이 없으며, 학생들의 태도에 부정적인 영향을 미친다.

Thus, it should have an obvious link to an action plan. In practice, we often use summative assessment as the basis for feedback. These accountability measures are designed to provide an overall estimate of learning, so they often lack specific information about strengths and weaknesses, they are not associated with specific educational interventions, and they negatively impact students’ attitudes.

예를 들어, 졸업시험은 다음 단계의 교육에 대한 준비 상태에 대한 전반적인 판단을 제공하도록 설계되었지만, 이것으로는 장점과 약점을 추정할 수도 없고, 이것이 교정 또는 개선을 위한 구체적인 계획과 연관되지도 않습니다. 따라서 평가의 내용과 형식은 피드백의 목적으로 특별히 선정되어야 하며 실행 계획에 직접 연결되어야 한다. 이를 위해서는 추가 자원이 필요할 수 있는데, 전체 퍼포먼스 추정치를 생성하는 것보다 측정 관점에서 장점과 단점을 식별하는 것이 더 어렵기 때문이다.

For example, exit examinations are designed to provide an overall judgment about readiness for the next stage of training, but they are not capable of estimating strengths and weaknesses nor are they associated with specific plans for remediation or improvement. Therefore, the content and format of assessments need to be chosen specifically for the purpose of feedback and have a direct connection to action plans. This may require additional resources since the identification of strengths and weaknesses is more challenging, from a measurement perspective, than generating an overall estimate of performance.

수신인과 관찰자의 맥락특이성 효과는 관찰 기반 평가에서 측정 오류의 가장 큰 원천일 수 있다. 케이스별로 퍼포먼스가 다르다는 것이 반복적으로 입증되었습니다. 구체적인 맥락에 따라, 강점과 약점에 대한 자신감 있는 판단을 내리기 위해서는 더 폭넓은 표본 추출이 필요하다. 제한된 샘플에 기초한 피드백은 덜 정확하고 유용할 가능성이 적다. 따라서 교육 프로그램은 여러 가지 맥락에 걸쳐 다양한 피드백 상호작용을 보장해야 한다.

Context specificity effects for recipients and observers are probably the largest sources of measurement error in any observation-based assessment. It has been repeatedly demonstrated that performance is case specific. Depending on the specific context, wider sampling is required to generate confident judgments about strengths and weaknesses. Feedback based on a limited sample is less accurate and less likely to be useful. Educational programs should thus ensure multiple feedback interactions across multiple contexts.

이는 추가 평가 정보를 얻을 기회를 제공한다는 점에서 '대화를 중심으로 한 접근법'이 더 효과적일 수 있음을 의미한다(Brehaut et al. 2016). 마찬가지로, 자기 평가에 기초한 피드백은 정확하지 않을 가능성이 낮으므로 다른 사람의 관찰결과를 바탕으로 자기 평가를 보완하는 것이 중요하다(Davis et al. 2006).

This implies that an approach built around dialog may be more effective because it provides an opportunity to acquire additional assessment information (Brehaut et al. 2016). Similarly, it means that feedback based on self-assessment is unlikely to be accurate so it is critical to supplement self-assessment with the observations of others (Davis et al. 2006).

관찰자 훈련은 중요하다. 이러한 훈련의 목적은 의견 불일치에 대한 부적절한 원인(예: 평가 양식의 오해에 기초한 관찰자 간의 차이)을 제거하고, 일관되게 표준의 적용할 수 있도록 유도하는 것이다.

observer training is important. The aim of such training is to eliminate inappropriate reasons for disagreement (e.g. differences between observers based on misunderstandings of the rating form) and encourage the application of consistent standards.

한편, 관찰자 변동성은 또한 훈련생들이 여러 번의 만남 과정에 걸쳐 여러가지 건설적인 관점에 노출될 수 있는 기회를 제공하기 때문에 ongoing 또는 periodic 평가 프로그램이 더 효과적일 수 있다는 것을 의미한다.

Observer variability also implies that a program of ongoing or periodic assessment is likely to be more effective, since it offers the opportunity for trainees to be exposed to multiple constructive perspectives over the course of several encounters.

글로 주어지는 피드백

Feedback as words

피드백은 발신자에서 수신자로의 단순한 정보 전달이 아니라, 복잡하고 난해한 의사소통 형태이다(Higgines et al. 2001).

feedback is not a simple information transfer from sender to recipient; rather, it is a complex and challenging form of communication (Higgins et al. 2001).

대화는 세 가지 핵심 요소인 콘텐츠, 플레이어, 컨텍스트로 구성됩니다

A conversation comprises three key elements: content, players and context. 

대부분의 피드백 교육은 콘텐츠에 초점을 맞추고 있으며, 콘텐츠에 대한 조언은 실제로 타당하다. 피드백이 의미를 가지려면, 시기적절하고, 정보에 입각하고, 구체적이며, 실행 가능하고, (사람 지향적이 아니라) 직무 지향적인 것이어야 한다(Lefroy et al. 2015).

Most feedback training focuses on content, and the familiar advice about content is indeed sound. For feedback to be meaningful, it should be timely, well-informed, specific, actionable and task-directed rather than person-directed (Lefroy et al. 2015).

하지만 말은 대화의 한 부분에 불과하다. player들, 대화가 왜 일어나고 있는지에 대한 그들의 이해, 그리고 그들의 관계 또한 중요하다. 교사는 신뢰할 수 있는 피드백 출처여야 한다. 

But words are merely one part of a conversation. The players, their understanding of why the conversation is occurring, and their relationship are also critical. The teacher must be a credible source of feedback ( a broad spectrum of individuals might serve this purpose). 

교사는 일반적으로 임상적 전문지식을 보여줌으로써 신뢰를 얻을 뿐만 아니라, 관찰을 통해 학습자의 강점과 약점을 이해하고 정보에 입각한 피드백을 만들어냄으로써 신뢰성을 얻는다.

Teachers earn credibility not only by demonstrating clinical expertise, but also by engaging in the creation of well-informed feedback, typically by observing the learner to understand their strengths and weaknesses.

감정은 참가자들이 피드백과 상호작용하는 방법에 영향을 미친다. 교사는 학습자에게 해를 끼칠까 두렵거나, 어려운 대화에 대한 불편한 느낌 때문에 부정적인 피드백을 주는 것을 꺼리며, 학습자는 강한 부정적 감정적 반응을 일으키는 피드백으로 인해 어려움을 겪을 수 있다(Eva et al. 2012). 목적의 명확성은 피드백이 교환되는 방식을 바꾼다. 참가자들이 대화의 의도에 동의하였고, 그들의 목표가 일치합니까? 또한 교사-학습자 관계는 피드백 대화에서 크게 드러난다(Telio et al. 2015). 관계에 대한 신뢰는 피드백을 촉진하는데, 특히 진행이 어려워지고 피드백이 중요하거나 수정되어야 할 때 그렇다.

Emotions affect how the players interact with feedback. Teachers may temper negative feedback for fear of harming learners, or due to discomfort with challenging conversations, and learners may struggle with feedback that engenders a strong negative emotional response (Eva et al. 2012). Clarity of purpose further modifies the feedback exchange. Do the players agree on the intent of the conversation, and are their goals aligned? In addition, teacher-learner relationships loom large in feedback conversations (Telio et al. 2015). Trusting relationships facilitate feedback, particularly when the going gets tough and the feedback must be critical or corrective.

컨텍스트는 피드백 대화의 세 번째 핵심 요소로 구성됩니다. 피드백 대화는 피드백이 이뤄지는 학습문화와 분리될 수 없다. 서로 다른 학습 문화는 피드백에 대한 각자의 방식을 전수하며, 동일한 개인이라도 상황이 달라지면 피드백에 다르게 반응할 수 있다. 음악, 스포츠, 춤의 세계에서 일상적으로 이뤄지는 비판적이거나 부정적인 피드백은 대부분의 의학 교육 분야에서 흔한 것이 아니며, 따라서 학습자에게 분명하게 불편함을 느낄 수 있다(Watling et al. 2014).

Context comprises the third key element of the feedback conversation. Feedback conversations are inseparable from the learning cultures in which they occur. Different learning cultures routinize distinct approaches to feedback, and the same individuals may respond differently to feedback when the setting changes. Critical or negative feedback, while routine in the worlds of music, sports, and dance, is not normalized in most areas of medical education and can thus feel distinctly uncomfortable to learners (Watling et al. 2014).

문화가 좋은 피드백 컨텐츠를 정의하지 않는다. 구체적이고 시기적절하며 신뢰할 수 있고 건설적인 피드백이 대부분의 환경에서 평가되는 것처럼 보이는 반면, 개선의 분명한 경로가 없는 모호한 피드백은 어떤 상황에서도 좋게 평가되지 않습니다. 

Culture does not define good content; specific, timely, credible and constructive feedback appears to be valued in most settings, while vague feedback lacking a clear path to improvement is unlikely to be valued in any setting. 

문화는 또한 동기부여가 되는 플레이어를 만들지 않는다. 그들은 학습과 피드백에 대한 그들 자신의 방향을 가지고 테이블에 올 것이다. 하지만 문화는 좋은 피드백을 만들며, 학습자들이 반응할 수 있는 기회를 만든다.

Culture also does not create motivated players – they likely come to the table with their own orientation to learning and feedback. Culture does, however, create the opportunities for good feedback to occur and for learners to respond.

음악, 스포츠 및 교사 훈련과 같은 일부 학습 문화는 교사들이 오랜 시간 동안 학습자를 관찰할 기회를 정기적으로 만듦으로써, 정보에 입각한 피드백 대화의 토대를 마련한다(Watling et al. 2013). 의학은 늘 학습자에 대한 관찰이 부족해왔다. (Day et al. 1990; Illson et al. 1995; Howley & Wilson 2004) 그 결과 피드백에 사용되는 단어들이 신중하게 선택되고, 참가자들이 동기부여를 받았더라도, 종종 피드백 대화는 피상적이고 정보가 부족하다는 느낌을 주게 되는 것이다.

Some learning cultures – for example, music, sports, and teacher training – routinely create opportunities for teachers to observe learners over extended periods of time, thus producing the foundation for well-informed feedback conversations (Watling et al. 2013). Medicine continues to under-observe its learners (Day et al. 1990; Isaacson et al. 1995; Howley & Wilson 2004). the impact on feedback is that its conversations often feel superficial and poorly informed, even if the words are carefully chosen and the players are motivated.

문제점과 기회

Challenges and opportunities

의학 훈련에서, "단어로서의 피드백"은 종종 대화처럼 느껴지지 않는 서면 형태로 제공된다. 서면 코멘트는 [피상성]과 [지나친 정치성]이라는 쌍둥이 병폐를 겪는다. 따라서 학습자는 서술적 코멘트의 의미를 판독하기 위해 "행간읽기"를 해야 하며, 종종 유용한 지침이나 지시를 주지 못하는 경우가 많습니다(Lye et al. 2001; Ginsburg et al. 2015). 촉진은 앞으로 나아갈 길을 제공할 수 있다. 예를 들어 Sarnard 등(2015년)은 학습자가 서면 코멘트에 대해 진정한 대화를 나누고, 피드백 다이내믹에서 대화가 적절한 위치를 갖도록 할 것을 옹호합니다.

In medical training, “feedback as words” is often provided in written form, which does not feel very much like a conversation. Written comments suffer the twin maladies of superficiality and over-politeness. As a result, learners must “read between the lines” to decipher the meaning of narrative comments and are often left without useful guidance or direction (Lye et al. 2001; Ginsburg et al. 2015). Facilitation may offer a way forward. Sargeant et al. (2015), for example, advocates engaging learners in an authentic conversation about written comments, returning conversation to its rightful place in the feedback dynamic.

게다가, 의학은 상습적으로 코치와 평가자의 역할 경계를 모호하게 한다. 일반적으로 학생들에게만 책임이 있는 스포츠 코치나 음악 교사들과는 달리, 의료 교사들은 기관, 지역사회, 그리고 대중에게도 책임이 있다.

Complicating matters further, medicine habitually blurs the lines between the roles of coach and assessor. Unlike sports coaches or music teachers, whose accountability is generally to their students alone, medical teachers are also accountable to institutions, communities and the public.

교사들이 한 학습자에게 코치와 평가자의 역할을 동시에 수행할 때, 피드백 대화는 흐려지고, 그것의 이해관계와 의도가 불분명해진다. 결과적으로, 자신의 약점을 다루고 해부하려는 학습자의 의지가 손상될 수 있다. 잠재적인 해결책은 코칭에 대해 보다 명확하게 설명하는 대화를 만드는 것입니다. 그러한 대화에서 교수자와 학습자는 모두 개발적이고 개선적인 의도를 잘 이해할 수 있다.

when teachers act as coaches and assessors at the same time for the same learner, the feedback conversation becomes fraught, its stakes and intent unclear. As a result, a learner’s willingness to table and dissect their weaknesses may be compromised. A potential solution is to create conversations that are more clearly about coaching – where the developmental, improvement-oriented intent is well understood by both players.

대화는 단어만으로 이뤄지는 것이 아니다. 피드백이 진정한 반향을 불러일으키기 위해서, 우리는 우리가 대화하는 것, 즉 단어, 사람, 관계, 그리고 맥락을 만드는 모든 것에 주의를 기울이는 진정한 대화에 우리의 말을 포함시켜야 합니다.

Words alone do not a conversation make. For feedback to resonate, we need to ensure that we embed our words in authentic conversations where we attend to all the things that make conversations tick – words, people, relationships and context.

숫자로서 피드백

Feedback as numbers

학생들은 항상 더 많은 피드백을 원하지만, 교수진들은 (그들의 역할에 대한 다른 모든 기대를 감안할 때) 피드백을 줄 시간이 점점 더 적어진다. 숫자 또는 데이터는 이 수요를 충족시키는 방법이 될 수 있다.

Students always want more feedback and faculty members have less and less time given all the other expectations of their roles. Numbers, or data, can provide a way to satisfy this demand.

피드백이 평가자 또는 지도자와 서면 또는 구두 상호작용의 형태를 취할 필요가 있다고 일반적으로 생각되지만, 인간의 감정과 편견이 의미하는 것은 [피드백을 제공하는 사람이 내린 해석에 학습자가 이의를 제기한다]는 것이다. 최악의 경우, 그러한 피드백은 의도했던 것과는 정반대의 결과를 초래하여 학습자에게 부정적인 정서적 영향을 미칠 수 있다.

Although it is commonly thought that feedback needs to take the form of written or verbal interactions with an assessor or tutor, emotion and inherent bias can mean that the learner disputes the interpretation of performance by the individual providing the feedback. In the severest cases, such feedback can have a negative emotional impact on the learner which produces the very opposite of what was intended.

예를 들어 개별화된 프로파일은 학습자가 다른 학습자와 비교했을 때, 또는 이미 설정된 기준과 비교했을 때 어느 위치에 있는지를 표시해준다. 따라서 개별화된 프로파일은 자기-평가와 성찰을 지원하며, 변화를 장려하고 촉진하다.

For example,individualized profiles can show where a learner may stand,relative to other learners or in comparison to an established criterion. As such, individualized profiles can support self-assessment, reflection. encourage and nudge change and facilitate



어떤 상황에서, 숫자는 천 장의 사진보다 더 의미 있을 수 있다. 숫자는 종합적인 개요 또는 추세를 효율적으로 전달할 수 있다. 또한 평가를 통해 획득한 누적 데이터는 학습진행률의 "개별화된" 지표로서 기능할 수 있기 때문에, 이를 기반으로 학습자의 프로필을 개발할 수 있습니다.

Under appropriate circumstances, numbers can be more meaningful than a thousand pictures. Numbers can efficiently convey aggregate overviews or trends. Moreover, they can be used to develop profiles of learners based on cumulative data acquired through assessments that can function as “individualized” indicators of learner progress

예를 들어, 야구에서 데이터 분석은 선수의 팀 기여도를 결정하기 위해 과거의 성과를 평가하고 미래의 성과를 예측하는 데 사용된다. 이것은 세이버메트리스라고 불린다.

For example, in baseball, data analytics are used in evaluating past performance and predicting future performance to determine a player’s contributions to his team. This is called sabermetrics.



숫자들은 유용한 정보를 제공하지만 숫자만으로는 감정적으로 도움이 되지 않을 수 있다. 숫자는 학습자의 교육 프로세스를 translating 것과 관련된 다른 여러 교육적 요소를 비인간화하거나 누락시킬 수 있다. 숫자에만 기반하여 수립한 학습 계획은 실제로 학습자의 요구를 충족하지 못할 수 있으며, 이러한 방식으로 계획을 개발하면 그 결과를 검토하는 것도 어려울 것이다.

While numbers may provide useful information, numbers alone can be emotionally unhelpful. They can depersonalize and miss other educational factors involved in translating the educational processes of the learner. Learning plans based on numbers alone may not actually fulfill the learner’s needs and reviewing the results of plans developed in this way will be difficult.

그렇다면 그 결론을 입증하기 위해 교수진의 피드백이 조합되어야 한다.

It is likely then that a combination of feedback from Faculty but based on numerical evidence to substantiate the conclusions will be the way forward.

교수개발과 피드백

Faculty development and feedback

피드백이 효과적이려면(Holmboe et al. 2011), 교수개발이 필수적이다. 보다 구체적으로 말하면, 교사들이 직면하는 공통된 과제를 해결하기 위해서 모든 교수개발 프로그램은 피드백이 발생하는 상황을 고려해야 한다.

faculty development is essential for feedback to be effective (Holmboe et al. 2011), be it in words or numbers. More specifically, any faculty development program must consider the context in which it occurs, address common challenges that teachers encounter

피드백은 여러 가지 맥락에서 발생하며 학습자와 교수진의 관점에서 모두 틀을 잡을 수 있다. 예를 들어, 학습자들은 종종 그들이 "측정"될 수 있는지 궁금해하면서, 동시에 감독관에게 "들키지 않을 수" 있기를 바란다. 그들은 또한 그 시험의 'stakes'가 무엇인지 걱정한다. 그것이 감독자의 신뢰인지, "좋은" 학생이라는 평판인지 등이 될 수 있다.

Feedback occurs in multiple contexts and can be framed from both a learner’s and a faculty member’s perspective. For example, learners often hope that they may “go unnoticed” by their supervisor while at the same time wondering if they will “measure up”. They also worry about what is at stake for them, be it the trust of the supervisor, the reputation of being a “good” student

그러나 대부분의 경우에 있어서 정말 중요한 것은 [학습자의 학습]과 [학습자가 가능한 최고의 의료 전문가로 발전하도록 하는 능력]이다. 이상적으로, 피드백은 장점을 토대로 약점을 해결하는 기회로 여겨져야 한다. 

In most cases,however, what is really at stake is their learning and their ability to develop into the best possible health care professional that they can be, and ideally, feedback should be seen as an opportunity to build on strengths and address personal weaknesses. 

교직원의 관점에서 교사들은 종종 

-어떻게 하면 환자와 학습자의 요구를 가장 잘 조화시킬 수 있는지, 

-학습자가 자신의 잠재력에 어떻게 도달할 수 있는지, 그리고 

-피드백을 제공하는 데 있어 공통적인 문제를 어떻게 해결할 수 있는지 궁금해 한다.

From a faculty perspective, teachers often wonder 

-how they can best balance the needs of their patients and learners, 

-how they can help learners reach their potential, and 

-how they can address common challenges in giving feedback

학습자와 교사 모두에게 피드백은 [인식된 stakes]과 [실제 stakes] 사이, 그리고 [새롭게 부상하는 필요]와 [기존의 우선 순위] 사이에서 균형을 잡는 행동이 될 수 있습니다.

For both learners and teachers, feedback can be a balancing act, between perceived and actual stakes and between emerging needs and priorities.

지금까지 학생과 레지던트에 대한 피드백을 높이기 위해 고안된 다양한 교수진 개발 프로그램들이 있지만, 이러한 폭넓은 내용과 접근방식에도 불구하고, 피드백 프로세스를 개선하려는 대부분의 교수개발 프로그램들이 직면한 주요 과제는 시스템 변화를 유발하는 것이다.

To date, diverse faculty development programs designed to enhance feedback to students and residents . Despite this breadth of content and approaches, however, bringing about systems changes remains a major challenge facing most faculty development programs trying to improve the feedback process.

앞으로, 지금까지 다루어졌던 핵심 콘텐츠에 초점을 맞추는 것이 좋습니다(위에서 설명). 여기에는 다음의 것들이 포함될 수 있다.

  • 담론을 바꾸다 ("행동"에서 "피드백의 관계적 측면"으로) 

  • 피드백을 주는 범위를 넓히다 ("행하는 것"에서 "되는 것"으로) 

  • 피드백을 더 심각하게 받아들이다 ("잘 했어요"에서 "변화를 위한 계획"으로).

Moving forward, we would suggest an additional focus to the core content that has been addressed to date (and described above). This would include the need 

  • to change the discourse (from behaviors to the relational aspects of giving feedback), 

  • to expand the scope of giving feedback (from “doing” to becoming) and 

  • to take feedback more seriously (from saying “good job” to planning for change).

피드백의 담론을 바꿀 때, 교수진들은 종종 "tick-box"로 인식해온 것에서 벗어날 수 있고, 교사들과 학습자들 사이의 의미 있는 대화로 피드백을 바라볼 수 있으며, 교수자-학습자 사이의 관계에 신경쓸 수 있고, 학습자는 "Fail의 공포"를 극복하고, 교수자는 "Fail시키지 못한 실패"를 극복할 수 있으며신뢰감과 유대감을 쌓기 위해 노력하게 될 것이다.

In changing the discourse of feedback, faculty members should be encouraged to move away from what is often perceived as a “tick-box” exercise to a meaningful conversation between teachers and learners, look at the teacher-learner relationship and what learners and teachers perceive, overcome a “fear of failure” among learners and a “failure to fail” among teachers and work on building a sense of trust and collegiality.

피드백의 범위를 확대하는 것은 다음을 포함한다.

  • 피드백과 관찰을 연결하고, 

  • 판단보다 학습에 초점을 두고,

  • 구체적인 행동 뿐만 아니라 관찰한 것의 "게스탈트"를 고려하고, 

  • 학습자 및 환자 요구에 집중 하고,

  • 평가 과정에서 피드백의 역할을 강화한다. 

Expanding the scope of feedback includes 

  • linking feedback to observation, 

  • moving away from judgment to learning, 

  • considering the “gestalt” of what is observed as well as specific behaviors, 

  • focusing on learner and patient needs and 

  • reinforcing the role of feedback in the assessment process. 

피드백을 심각하게 받아들이는 것은 다음을 포함한다.

  • 피드백을 "일상화된 실천"으로 만들고

  • 학생과 레지던트를 정기적으로 관찰하는 것 

  • 교수자가 보는 것이 무엇인지 identify하고, 

  • 관찰된 행동을 토대로 구체적이고 측정 가능한 피드백을 제공하고, 

  • 학습자가 피드백을 요청할 수 있도록 empower하고,

  • 피드백과 관련한 stakes를 인지하는 것

Taking feedback seriously refers to the need for 

  • making feedback a “routine practice”, 

  • observing students and residents on a regular basis, 

  • identifying what teachers see and 

  • giving feedback that is specific and measurable, based on observed behaviors, 

  • empowering learners to solicit feedback and 

  • recognizing the stakes involved.

대안적 접근법은 (특히 교수개발이 개인 수준과 시스템 수준 모두에서 변화를 촉진하는 것을 목표로 하는 경우) 이러한 목표를 달성하는 데 도움이 될 수 있다. 

Alternate approaches may also help to achieve this objective, especially if faculty development aims to promote change at both individual and systems levels. 

workshop에서 workplace로 이동하는 것이 개인 수준에서 갖는 장점은...실제로 교사가 어떻게 행동하는지 관찰할 수있고, 피어코칭을 총진하며, 다양한 교수개발전략을 활용할 수 있다.

At the individual level, there is merit in moving from the workshop to the workplace so that we 

-can observe teachers in action (Steinert 2014), 

-promoting peer coaching (Regan-Smith et al. 2007) and 

-taking advantage of a broad range of faculty development strategies

시스템 수준에서는 피드백 프로세스의 가치를 평가하고, 학습자에 대한 직접관찰을 장려하며, 종단적 교사-학습자 관계를 위한 기회를 창출하고, "크리티컬" 피드백을 일상화하며, 학습자가 피드백을 요청할 수 있도록 empower하고, 교수가 자신을 코치로서 인식하도록 해야 합니다.

At the systems level, we need to find ways to value the feedback process, encourage direct observation of learners, create opportunities for longitudinal teacher–learner relationships, normalize “critical” feedback, empower learners to solicit feedback and help faculty members view themselves as coaches.

우리는 또한 현재의 강점을 바탕으로 여러 이해당사자를 참여시켜야 할 것이다.

We will also need to build on current strengths, engage multiple stakeholders (including students, residents and patients),


결론은 다음과 같다.

we concluded that 

(1) 피드백에 선행하는 평가는 피드백의 교육적 효과를 최적화하도록 설계되어야 한다. 

(1) the assessment that necessarily precedes feedback should be designed to optimize its educational effect; 

(2) 대화나 논의의 형태로 제공되는 질적 피드백은 신뢰성에 도움이 되고, 정서적 장애물에 대처하며, 편안한 환경을 조성할 수 있다. 

(2) qualitative feedback in the form of a conversation or discussion would lend to its credibility, address emotional obstacles and create a context in which it is comfortable; 

(3) 비록 한계가 있지만, 개별화된 데이터의 형태를 갖는 양적 피드백은 그 '수치'를 증가시키기 위한 요구를 충족시키고, 학생들이 어떻게 개선할 것인가에 대한 전략을 고안하도록 도울 수 있으며, 학생들이 자신의 동료와 자신을 비교할 수 있도록 한다. 

(3) even though it has limitations, quantitative feedback in the form of individualized data could fulfill the demand to increase it, help students devise strategies on how to improve, allow students to compare themselves to their peers; and 

(4) 교수개발은 문화 및 시스템 변화를 통합하고 촉진할 필요가 있다. 피드백에 대한 더 나은 이해가 더 효율적이고 효과적인 학습을 가져올 것이다.

(4) Faculty development needs to incorporate and promote cultural and systems changes. We believe, that a better understanding of feedback will result in more efficient and effective learning.

Research indicates the importance and usefulness of feedback, yet with the shift of medical curricula toward competencies, feedback is not well understood in this context. This paper attempts to identify how feedback fits within a competency-based curriculum. After careful consideration of the literature, the following conclusions are drawn: (1) Because feedback is predicated on assessment, the assessment should be designed to optimize and prevent inaccuracies in feedback; (2) Giving qualitative feedback in the form of a conversation would lend credibility to the feedback, address emotional obstacles and create a context in which feedback is comfortable; (3) Quantitative feedback in the form of individualized data could fulfill the demand for more feedback, help students devise strategies on how to improve, allow students to compare themselves to their peers, recognizing that big data have limitations; and (4) Faculty development needs to incorporate and promote cultural and systems changes with regard to feedback. A better understanding of the role of feedback in competency-based education could result in more efficient learning for students.


좋은 평가의 기준: Ottawa 2010 컨퍼런스의 합의문과 권고안(Med Teach, 2011)

Criteria for good assessment: Consensus statement and recommendations from the Ottawa 2010 Conference


1FAIMER, USA, 2AAMC, USA, 3Universidade Cidade de Sa˜ o Paulo, Brazil, 4University of Cape Town and Groote Schuur Hospital, South Africa, 5University of Minho, Portugal, 6Maastricht University, The Netherlands, 7National Board of Medical Examiners, USA, 8Keele University, UK, 9University of Cape Town, South Africa, 10University of Cape Town, South Africa, 11University of Leeds, UK





평가에는 정보를 테스트, 측정, 수집 및 결합하고 피드백을 제공하는 작업이 포함됩니다.

Assessment involves testing, measuring, collecting, and combining information, and providing feedback.

실천적 요점

Practice points

위에 요약 된 우수한 평가 기준은 포괄적 인 원칙의 집합으로 작용하기위한 것입니다. 이들로부터 다양한 이해 관계자에게 유용한 지침을 제공 할 수있는 일련의 실행 지점을 도출 할 수 있습니다. 이러한 실천 사항 중 일부는 다음과 같습니다.

The criteria for good assessment outlined above are intended to act as a set of overarching principles. From them, a series of practice points can be derived that might provide useful guidance to various stakeholders. Some of these practice points follow.


. 수험생은 자신이받는 평가의 목적을 알아야합니다.

. 수험생은 그들이받는 평가의 질을 확신해야합니다.

. 수험생은 지속적인 학습을 유도하는 피드백을 받아야합니다.

. 수험생은 피드백을 받고 행동하는 데 적극적으로 참여해야합니다.

. 수험생은 채점 및 표준 설정 과정에 대해 적절한시기에 정보를 제공받아야 한다.


. Examinees should know the purpose of the assessments they take.

. Examinees should be assured of the quality of assessments they take.

. Examinees should receive feedback that fosters ongoing learning.

. Examinees should participate actively in receiving and acting on feedback.

. Examinees should be informed in a timely fashion about the scoring and standard-setting process.


. 환자의 역할이 전문 기술 (예 : 의사 소통 기술)과 일치 할 때 환자는 평가자로 포함되어야합니다.

. 환자는 능력 및 성과의 여러 측면에 대한 이해를 향상시키는 데 기여해야합니다.

. 환자는 연수생이받는 평가의 질을 확신assured해야합니다.

. 전문 지식의 범위 내에서 평가의 교육적 효과에 기여할 수있는 경우 환자를 교육자로 포함시켜야합니다.


. Patients should be included as assessors when that role is consistent with their expertise (e.g., communication skills).

. Patients should contribute to improving understanding of facets of competence and performance.

. Patients should be assured of the quality of assessments trainees take.

. Patients should be included as educators when, within the scope of their expertise, they can contribute to the

educational effects of assessments. 


. 교사는 수강생의 학습을 극대화하는 방식으로 평가를 설계해야합니다.

. 교사는 그들의 가르침에서 학습 목표를 다루어야한다.

. 교사는 평가 결과를 사용하여 향후 학습의 질을 향상시켜야합니다.


. Teachers should design their assessments in ways that maximize examinee learning.

. Teachers should address learning objectives in their teaching.

. Teachers should use assessment results to improve the quality of future learning.

교육 기관

. 교육 기관은 교수진에게 평가를 위한 교육을 제공해야합니다.

. 교육 기관은 평가가 잘 수행되도록 자원 (임상 직원)을 배정해야합니다.

. 교육 기관은 교육의 질을 모니터링하기위한 프로세스의 일환으로 평가의 품질을 분석해야합니다.

. 교육 기관은 자신의 커리큘럼이 자신의 평가와 일치하도록해야합니다.

Educational institutions

. Educational institutions should provide training in assessment for faculty.

. Educational institutions should allocate resources (clinical staff) to ensure assessment is done well.

. Educational institutions should analyze the quality of their assessments as part of processes for monitoring the quality of their teaching.

. Educational institutions should ensure that their curricula are consistent with their assessments.

의료 시스템

. 의료 시스템은 지속적인 형성 평가를위한 기회를 제공해야합니다.

. 의료 시스템은 형성평가에 대해 대응을 장려하는 문화를 촉진해야합니다.

. 의료 시스템은 직장 환경에서의 평가 연구를 촉진해야합니다.

Healthcare systems

. Healthcare systems should offer opportunities for ongoing formative assessment.

. Healthcare systems should facilitate a culture of encouraging response to formative assessment.

. Healthcare systems should promote research in assessment in workplace settings.

규제 기관

. 감독 당국은 평가의 교육적 효과를 고려해야합니다.

. 감독 당국은 지속적으로 역량을 확보 할 수있는 평가를 제공해야합니다.

. 규제 기관은 교육 및 의료 시스템에 대한 평가의 촉매 효과를 인식해야합니다.


. Regulators should take account of the educational effects of their assessments.

. Regulators should offer assessments which ensure ongoing competence.

. Regulators should recognize the catalytic effects of assessment on the education and healthcare systems.

어떤 관점에서 보든, 평가에 대한 사전적 정의는 동사 ''시험하기test''에 대해 두 가지 뚜렷한 의미를 지닌다 (Crossley 외. 2002). 

  • 하나는 평가 대상에 대한 더 많은 정보를 얻으려는 시도로 무언가의 가치를 발견하는 것입니다. 

  • 다른 하나는 trial(즉, 평가의 영향)을 통해 무언가의 품질을 향상시키는 것입니다. 

이 두 가지 의미는 평가의 중요성, 적용, 그리고 훌륭한 평가를위한 기준의 파악에 중요합니다.

No matter the perspective, the dictionary definition carries two distinct meanings to the verb ‘‘to test’’ (Crossley et al. 2002). One is to discover the worth of something by trial, with the purpose of obtaining more information about the object of assessment. The other is to improve the quality of something by trial (i.e., the impact of assessment). These two meanings are central to understanding the importance of assessment, its applications, and to identifying the criteria for good assessment.

역사적 관점 

Historical perspective

선발을 위한 지식 및 / 또는 성과의 측정은 역사적으로 가장 많이 보급되어 왔습니다. 가장 이른 평가 기록은 중국에서 한 왕조 (기원전 206 년부터 220 년까지)로 거슬러 올라간다. 중세 이슬람의 의학 실습은 역량 테스트를 필요로 했으며, 17 세기 예수회 제사장들은 중국에 입국 한 선교사들의 영향을 받아 학교 진학을위한 경쟁 시험을 사용했다.

Measurement of knowledge and/or performance for the purposes of selection has been its most pervasive role throughout time. The earliest records of assessment date back to the Han dynasty in China (206 BC to 220 AD) where candidates were selected for government service. The practice of medicine in medieval Islam required competence testing and by the seventeenth century Jesuit priests were using competitive examination for entry into their schools, possibly influenced by the missionaries who had traveled to China.

의학 교육과 관련하여 공식 평가 개발을 향한 첫 번째 단계는 비엔나 및 프랑스 의과 대학에서 인턴 과정 중 시험을 실시하는 것이 었습니다. 1788 년부터 파리의 인턴십 입학은 경쟁 구두 및 구술 시험으로 결정되었습니다 (Lesky 1970, Poynter 1970). 1850 년대 영국의 옥스포드 (Oxford)와 케임브리지 대학 (Cambridge university)에서 의학계 학생들을위한 졸업시험이 도입되었습니다. 1861년에는 이러한 검사는 1858 년 영국에서 설립 된 General Medical Council에서 규정 한 국가의 법적 요구 사항이되었습니다. 이 관행은 19 세기 후반 유럽 의과 대학에 빠르게 확산되었습니다.

With regard to medical education, the first step toward the development of formal assessments was the introduction of examinations during an internship in Viennese and French medical schools. From 1788, entry to these internships in Paris was decreed to be by competition in the form of written and oral examinations (Lesky 1970; Poynter 1970). Exit level examinations for medical students were subsequently introduced in Britain in the 1850s at Oxford and Cambridge universities. By 1861, such examinations became a statutory national requirement stipulated by the General Medical Council established in Britain in 1858. This practice rapidly spread throughout medical schools in Europe in the latter part of the nineteenth century.

대서양을 가로 질러, 미국에서는 상황이 아주 달랐습니다. 1800 년대에 Abraham Flexner (Flexner 1910)가 작성한 보고서에 설명 된대로 사적 및 공적 자금으로 '의과 대학'이 확산되었고, 이들은 교육, 훈련 및 평가 기준이 광범위하게 서로 달랐다. 이 보고서는 이후 미국에서의 의학 교육에 혁명을 일으켰으며, 1912 년에는 면허위원회의 일원이 American Medical Association’s Council on Medical Education (Kassebaum)가 결정한 학업 기준 (기준)에 근거하여 Federation of State Medical Boards 을 구성했습니다. 1930 년대에는 미국에서의 의료 훈련이 표준화되었고, 대학에서는 실험실 기반 및 병원 기반 교육을 제공하며, 졸업시험을 치르게 되었다 (Starr 1982).

Across the Atlantic, in the USA the situation was quite different. During the 1800s there had been a proliferation of ‘‘medical colleges’’ both privately and publicly funded, in which the standards of teaching, training, and assessment varied widely as described in the report authored by Abraham Flexner (Flexner 1910). This report subsequently revolutionized medical education in the USA and by 1912, a group of licensing boards formed the Federation of State Medical Boards which agreed to base their practice on academic standards (criteria) as determined by the American Medical Association’s Council on Medical Education (Kassebaum 1992). By the 1930s, medical training in the USA had been standardized and colleges offered laboratory-based and hospital-based training with exit examinations (Starr 1982).

지난 50 년 동안 전 세계적으로 학부 의대생 및 대학원생 평가에 관한 중요한 발전이 4가지 있었습니다.

. 의학적 역량의 다양한 차원을 지향하는 광범위한 평가 도구 개발,

. 새로운 교수법 및 학습 접근법의 개발 및 적용,

. psychometrics의 세련된 향상과 개별 평가 도구 및 결과에 대한 적용

. 평가의 핵심 요소로서 컴퓨터의 역할 증가 (Norcini 2005)

Over the past 50 years, there have been at least four major developments relevant to the assessment of undergraduate medical students and postgraduate trainees worldwide.

. development of a wide range of assessment tools, directed to different dimensions of medical competency, 

. development and application of new teaching and learning approaches, 

. increased sophistication of psychometrics and its application to individual assessment tools and results, and

. growing role of the computer as an integral part of assessments (Norcini 2005)

20 세기 중반까지 의과 대학 시험은 에세이와 구술 시험의 사용에 크게 의존했으며 통과 기준은 주관적이었습니다. 그러한 검사의 임의적 성격과 그 열악한 신뢰성에 대한 인식은 지난 50 년 동안 정신 측정 학적으로 강력한 평가 도구를 개발하게되었습니다. 여기에는 객관식 질문, 그리고 (시험 환경뿐만 아니라 작업 환경에서 성과를 평가하는) 다양한 양식이 포함됩니다

Until the middle of the twentieth century, medical school examinations relied heavily on the use of essays and oral examinations and the standards for passing were subjective. Recognition of the arbitrary nature of such examinations and their poor reliability led to the development of a large array of psychometrically robust assessment tools over the past 50 years. These include multiple choice questions and a range of modalities assessing performance both in an examination setting as well as in the workplace

이러한 발전은 몇 가지 기준에 의해 주도되었습니다.

. 평가는 재현 가능성 (신뢰성), 타당성, 실현 가능성, 공정성 및 학습에 도움이되어야합니다 (van der Vleuten 1996).

. 평가의 내용과 형태는 그들의 목적과 바람직한 결과에 부합 할 필요가 있으며,

. 수험자의 수행이 사례 또는 내용에 따라 다르기 때문에, 정확한 표본 추출을 위해서는 광범위한 표본 추출이 필요합니다(예 : 다중 생검).

. 합격 점수는 체계적으로 유도되어야 하며 평가의 전반적인 신뢰성이 중요합니다.

. 평가는 명확하게 정의 된 표준에 따라 작성되어야하며, 체계적이고 신뢰할 수있는 방법을 사용하여 derive되어야합니다

These developments have been driven by a few criteria:

. the assessments need to be reproducible (reliable), valid, feasible, fair, and beneficial to learning (van der Vleuten 1996),

. the content and form of assessments need to be aligned with their purpose and desired outcomes,

. broad sampling is needed to achieve an accurate representation of ability since examinee performance is case or content specific (multiple biopsies),

. systematically derived pass–fail scores and the overall reliability of an assessment are important, and

. assessments need to be constructed according to clearly defined standards and derived using systematic and credible methods.

좋은 평가의 기준을 정하는 것의 중요성

The importance of defining criteria for good assessment



다양한 이해 관계자가 평가 및 결과에 관련되거나 영향을받습니다. 이해 관계자는 환자, 일반 대중, 건강 관리 고용주, ​​전문 및 규제 기관, 대학, 의과 대학, 교육 기관, 개별 교사 및 최종적으로 동등하게 중요한 수험자를 포함합니다 (Amin 외). 이해 관계자는 동일한 평가조차도 다른 용도로 사용하며, 당연히 그러한 평가를 평가하는 다양한 기준의 중요성에 관해 다소 다른 우선 순위를 가지고 있습니다.

A number of different stakeholders are involved with or affected by assessments and their results. Stakeholders include the patients, general public, healthcare employers, professional and regulatory bodies, universities, medical schools, training organizations, individual teachers, and, finally and equally important, the examinees themselves (Amin et al. 2006). The stakeholders make different uses of even the same assessments and, not surprisingly, have somewhat different priorities when it comes to the importance of various criteria against which those assessments should be judged.

학생들은 자신의 학습에 영향을 미치는 특정 사회 문화적 맥락에서 왔으며, 평가에 의해 발전된 발달을 보였다 (Vygotsky, 1978). 학습자는 이렇게 지속적인 평가를 성공적으로 수행해가면서 (치료자, 카운슬러 또는 과학자와 같은) 점차적으로 사회에서 새로운 역할에 적응해간다 (Downie & Calman 1987; Rees & Jolly 1998). 또한, Boud (2000)는 평가가 평생 학습의 핵심 특징이라고 제안했다. Rushton (2005)은 이러한 관점을지지하면서 "학생들이 미래의 학습 경험에 대한 독립적 인 평가를 계속하는 데 필요한 준비를 학생들에게 제공합니다."

Students come from a specific socio-cultural context, which affects their learning, and they have their development shaped by assessment (Vygotsky 1978). If successful with these ongoing assessments, the student gradually adopts new roles within society such as healer, counselor, or scientist (Downie & Calman 1987; Rees & Jolly 1998). Further, Boud (2000), has proposed that assessment is a key feature of lifelong learning. Rushton (2005) supports this perspective, stating ‘‘(it) equips students with the preparation required to continue independent assessment of their future learning experiences’’.

평가에 대해 다양한 교수 및 학습 기관은 학생과는 약간 다른 시각을 가지고 있습니다.

The various teaching and learning institutions have a slightly different perspective, from students, on assessment.

규제 기관은 환자, 일반 대중 및 고용주를위한 게이트 키퍼 역할을하기 때문에 훌륭한 평가를 보장하는 데 중요한 역할을합니다. 이 맥락에서의 평가는 직업적 표준의 유지 및 개인과 사회 모두에 대한 책임 성과 밀접하게 연관되어 있으며, 이는 훌륭한 평가를위한 명확한 기준을 가질 필요성을 강조합니다. 결국 대중은 모든 의사가 유능하고 숙련 된 의료 종사자가 되도록 평가 절차가 수행되었다는 믿음에 따라 개인 의사를 신뢰할 수 있다.

Regulatory bodies have a critical role in ensuring good assessment since they serve as gatekeepers for patients, the general public, and employers. Assessment in this context is closely linked with the maintenance of professional standards and with accountability – both to the individual and to society – which reinforces the need to have clear criteria for good assessment. In the end, the public entrusts itself to individual doctors based on the belief that the assessment process has been carried out in such a way that all are competent and skilled health practitioners.

평가의 좋은 기준은 품질을 향상시킬뿐만 아니라 의도하지 않은 결과를 피하기 위해서도 중요합니다. Newble (1998)은 평가와 커리큘럼 개혁 간의 불일치가 학생 행동에 바람직하지 않은 영향을 미친 결과를 설명했다. 교과 과정 개혁의 일환으로, 그는 교훈적인 가르침이 어떻게 와드 중심의 가르침으로 대체되었는지 설명합니다. 그러나 한 해가 진행됨에 따라 학생들이 병동에서 거의 볼 수 없었고, 강의식 교육이 점점 더 많이 요구되었고, 학생들은 책 학습에 더 많은 시간을 할애했습니다. 그 이유는 평가 방법이 교과 과정 개혁과 일치하지 않았고 이전의 교훈 학습 스타일을 선호했기 때문입니다. 즉 기관적 수준에서 평가 방법론은 기관의 사명과 교육 프로그램의 목표를 훼손하고 있었다 (Trigwell 2001). 이 예는 평가를 교육 실무와 조화시키는 것이 중요하다는 것을 강조합니다.

Good criteria for assessment are important not only to improve quality but also to avoid unintended effects. Newble (1998) described how a mismatch between assessment and curriculum reform resulted in undesirable effects on student behavior. As part of curricular reform, he describes how didactic teaching was replaced with ward-based teaching. However, as the year progressed students were seldom seen on the wards, didactic teaching was increasingly requested and more time was devoted to book learning. The reason for this was that the assessment methods did not match the curricular reform but favoured the former style of didactic learning. Thus, at an institutional level, the assessment methodology was undermining the institutional mission and the goal of the educational program (Trigwell 2001). This example highlights the importance of aligning the assessment with educational practice.

배움과 가르침

Learning and teaching

많은 유명 명언들은 Miller 's (1990)의 "Assessment Driven Learning"과 Ben-David (2000)의 평가에서 "Assessment expands professional horizon"등 교육 과정에서 평가의 중심 역할을 강조합니다.

Many well-known adages emphasize the central role of assessment in the educational process such as Miller’s (1990) assertion that ‘‘Assessment drives learning’’ and Ben-David’s (2000) view that ‘‘Assessment expands professional horizons’’.

가치를 발견하고 품질을 향상시키는 두 가지 목표를 달성하려면 학습 평가가 중요합니다 (Arnold 2002). 교육 기관 및 교육자는 평가를 [책무성을 위한 도구]로만 간주하는 것으로부터 벗어나 [개선을위한 방법]으로 보기 시작했다(Colliver 2002; Cottrell 2006). 학습의 견고한 평가와 그것을 뒷받침하는 이론의 개발에 대한 강조가 강조됩니다. 이것은 여전히 ​​진행중인 작업입니다. 노먼과 슈미트 (Norman and Schmidt, 1999)는 "교육자들이 이론을 언급 할 때, 그것은 마치 술 취하는 사람들이 (illumination이 아니라 support를 위해) 가로등을 사용하는 것과 같은 방식으로 더 자주 사용된다"고 지적했다.

In order for it to achieve its two goals – that of discovering worth as well as improving quality – the assessment of learning is critical (Arnold 2002). Institutions and educators have moved from viewing assessment as only a tool for accountability to viewing it as a method for improvement as well (Colliver 2002; Cottrell 2006). The emphasis is on the need for the robust assessment of learning and the development of a theory to support it. This is still a work in progress; as Norman and Schmidt (1999) note: ‘‘When educators do make reference to theory, it is more frequently used the same way as a drunkard uses a light post –more for support than for illumination’’. 

평가의 중요성을 인식하고 교육 및 학습 연구와 연결하지 않는 것은 실수입니다 (Shepard 2000)

It would be a mistake to recognize the importance of assessment and yet not to connect it with the scholarship of teaching and learning (Shepard 2000)

좋은 평가의 기준에 대한 현재의 이슈 

Current issues in criteria for good assessment

세 가지 분류 

The state of the art of assessment may be organized into three categories: 

. 실천이 증거와 일치하는 영역 : 실천에 도움이 되는 증거가 있고 실무가 일반적으로 그 증거와 일치하는 경우의 평가 상황.

. 실천이 아직 증거와 일치하지 않는 영역 : 증거가 있지만 실제적으로 일반적으로 무시되는 평가 상황 (예 : 가능성이있는 문제가있는 곳).

. 증거가 부족한 영역 : 증거에 의해서 도움을 받을 수 없는 평가 상황 (즉, 연구가 필요함)

. Areas where practice is consistent with the evidence:Assessment situations where there is evidence that informs practice and where practice is generally consistent with that evidence. 

. Areas where practice is not yet consistent with the evidence:Assessment situations where there is evidence but it is generally ignored in practice (e.g., where there are issues of feasibility). 

. Areas where there is a lack of evidence: Assessment situations that are not informed by the evidence (i.e.,research is needed). 

분류1: 실천이 근거와 일치함

Category 1: Practice is consistent with the evidence


Written examinations.

객관식 질문, 에세이 및 유사한 형식을 통한 지식, 종합 및 판단 평가는 주로 첫 번째 범주에 속합니다. 이 범주의 평가 기준은 일반적으로 잘 정립되고 수용됩니다. 상당한 규모의 증거 기반이 있으며 합리적인 자원이있는 곳에서 고부담 (지역, 국가 및 지역 시험) 및 저부담 시험에서의 적용은 일반적으로 증거와 일치합니다

The assessment of knowledge, synthesis, and judgment through multiple choice questions,essays, and similar formats falls predominantly into the first category. The criteria for the assessments in this category are generally well established and accepted. There is a sizeable evidence base and, where reasonable resources are available,their application in high stakes (local, national, and regional examinations) and low stakes settings, is typically consistent with the evidence


Objective structured clinical examination.

OSCE를 사용한 임상 기술 평가는이 범주에 포함됩니다. 지난 30 년 동안 OSCE의 신뢰성, 실현 가능성 및 타당성 및 표준화 된 환자의 사용에 대한 광범위한 연구가 개발되었습니다. OSCE 형식은 증거 (범주 1)와 일치하는 다양한 고부담 및 저부담 상황에 적용되었습니다.

Assessment of clinical skills using the OSCE is included in this category.Over the past 30 years, an extensive body of research about the reliability, feasibility, and validity of the OSCE and the use of standardized patients has been developed. The OSCE format has been applied in a variety of high and low stakes situations in a fashion consistent with the evidence (category1).

분류2: 실천이 근거와 일치하지 않음

Category 2: Practice is not yet consistent with the evidence 



지난 수십 년 동안 수행 된 연구는이 기술을 평가에 사용하는 것을 매우지지하고 있으며, 다양한 상황 (카테고리 1)에서의 성공적인 배치deployment를 위해 광범위한 지침이 제공됩니다. 시뮬레이션의 일반적인 적용에 대한 주된 장애impediment는 그것의 타당성과 관련이 있습니다. 특히 장치가 비싸고 전용 시설 (시뮬레이션 센터)을 만들어야 할 수도 있으며, 좋은 시험 재료의 개발은 상당한 자원을 요구할(카테고리 2) 수 있습니다.

Research done over the past few decades is very supportive of the use of this technology in assessment and broad guidance is available for its successful deployment in a variety of different situations(category 1). The main impediment to the general application of simulation relates to its feasibility. Specifically, the devices are expensive, they may require the creation of a dedicated facility (simulation center), and the development of good testing material can be resource intense (category 2). 


Workplace-based assessment that supports clinical training.

최근 몇 년간, (임상 훈련을 지원하는) 직접 관찰을 통한 형성 평가가 강조되고 있습니다. 예비 연구는 일반적으로 그러한 결과를 지지하며, 문헌 번호는 다양한 목적에 필요한 평가자와 만남과 같은 문제에 대한 광범위한 지침을 제공합니다. 타당성은 그것의 실행에 대한 주요 장애물(카테고리 2)이며, 특히 임상 교수가 충분한 수의 평가를 수행하는 시간을 찾기가 어렵습니다.

In recent years, there has been an increasing emphasis on directly observed formative assessment that supports clinical training. Preliminary research is generally supportive and the literature number provides broad guidance on issues such as the of assessors and encounters needed for various purposes. Feasibility (category 2) is the major obstacle to its implementation and, in particular, it is difficult for clinical faculty to find time to perform a sufficient number of assessments. 

분류3: 근거가 부족함

Category 3: Lack of evidence

직무 평가

Assessment of work.

정확한 환자 기록 (카테고리 2)에 대한 지속적인 액세스가 필요하기 때문에 타당성 및 수용 가능성이 이용 가능한 척도에 관하여 대부분에서 주요 쟁점입니다. 마지막으로, 환자 만족도 측정과 같은 몇 가지 조치가 있는데, 이는 좋은 증거가 있으며 실현 가능한 것입니다 (범주 1).

Feasibility and acceptability are major issues for most of the available measures since they require continuous access to accurate patient records (category 2). Finally, there are a few measures, such as patient satisfaction measures, for which there is good evidence and that are feasible (category 1).

새로운 역량의 평가

Assessment of newer competencies.

예를 들어, ACGME 역량은 의학 지식, 환자 간호, 의사 소통 기술, 전문성, 시스템 기반 실습 및 실습 기반 학습 및 개선입니다. 각 역량은 다음과 같이 정의됩니다.

for example, the ACGME competencies are 

    • medical knowledge, 

    • patient care, 

    • communication skills, 

    • professionalism, 

    • systems-based practice, and 

    • practice-based learning and improvement. 

Each competency is defined as follows:

이러한 역량 중 의학 지식, 환자 간호 및 의사 소통 기술 (범주 1) 프로페셔널리즘 평가 (범주 2)에 관한 문헌이 증가하고있는 반면, 실습 기반 학습 및 개선 및 시스템 기반 실습 (카테고리 3) (Arnold 2002; Driessen et al., 2005; Cruess et al., 2006; Epstein 2007; Lurie et al. 2009; Varkey et.)에 대한 연구는 비교적 새로운 연구이며, 이러한 역량에 대한 좋은 평가 기준을 결정하기 위해서는 상당한 연구가 필요하다. al., 2009).

Of these competencies, there is a substantial literature on the assessment of medical knowledge, patient care, and communication skills (category 1) and a growing literature in the assessment of professionalism (category 2), while practice-based learning and improvement and systems-based practice are relatively new and considerable research is needed to determine the criteria for good assessment of these competencies (category 3).(Arnold 2002; Driessen et al. 2005; Cruess et al. 2006; Epstein 2007; Lurie et al. 2009; Varkey et al. 2009).

좋은 평가에 대한 초안 합의문

Draft consensus criteria for good assessment

어떤 하나의 기준도 모든 상황에 똑같이 적용되지 않습니다. 사실, 동일한 기준이라도 평가의 목적과 맥락에 따라 다른 중요성을 가질 것으로 기대되어야한다. 예를 들어, 의과대학생이 지식에 대한 책임에 대한 필요성을 충족시키기 위해 고안된 우수한 총괄시험 (예 : 면허 시험)은 동시에 미래의 학습이나 교과 과정 개혁을 안내하는 상세한 피드백을 기대할 수 없습니다.

No single set of criteria for good assessment apply equally well to all situations. In fact, the same criteria should be expected to have different importance depending on the purpose and context of assessment. For example, a good summative examination designed to meet the need for accountability for the knowledge of medical graduates (e.g., a medical licensing examination) cannot be expected to, at the same time, produce detailed feedback that would guide future learning or curricular reform.

마찬가지로, 동일한 평가에 대해서도 여러 기준이 모든 이해 관계자에게 동일한 가중치를 갖지 않는다. 예를 들어, 환자에게는 면허 시험의 타당성 또는 일관성이 더 중요하며, 시험을 치르는 의사 또는 비용을 지불하는 정부가 얼마나 비용이 드느냐가 주된 관심사는 아니다. 기준의 중요성은 이해 관계자의 관점에 따라 달라질 것입니다.

Similarly, the criteria are not of equal weight for all stakeholders even given the same assessment. For example, the validity or coherence of a licensing examination may be of more importance to patients than how much it costs the doctors who take it or the government that finances it. The importance of the criteria will vary with the perspective of the stakeholder.

좋은 평가의 기준

Criteria for good assessment

이러한 기준 중 많은 부분이 이전에 설명되었으며 우리는 여기에서 그들의 중요성을 계속 지원합니다. 그러나 우리는 평가의 촉매 효과에 특히 중점을 둔다.

Many of these criteria have been described before and we continue to support their importance here. However, we place particular emphasis on the catalytic effect of assessment.

  • (1) 타당성 또는 Coherence.

  • (2) 재현성 또는 일관성.

  • (3) 동등성. 동일한 평가는 다른 기관 또는 시험주기에 걸쳐 시행 될 때 동등한 점수 또는 결정을 산출합니다.

  • (4) 적용가능성. 환경과 상황에 따라 평가는 현실적이고 현실적이며 합리적입니다.

  • (5) 교육적 효과. 평가는 시험을 준비하는 사람에게 교육적 이득이 있어야 한다

  • (6) 촉매 효과. 평가는 교육을 창출하고 향상시키고 지원하는 방식으로 결과와 피드백을 제공합니다. 미래의 학습을 촉진시킵니다.

  • (7) 수용 가능성. 이해 관계자는 평가 프로세스 및 결과를 신뢰할 수 있음을 확인합니다.

(1) Validity or coherence.

(2) Reproducibility or consistency.

(3) Equivalence. The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing. 

(4) Feasibility. The assessment is practical, realistic, and sensible, given the circumstances and context. 

(5) Educational effect. The assessment motivates those who take it to prepare in a fashion that has educational benefit. 

(6) Catalytic effect. The assessment provides results and feedback in a fashion that creates, enhances, and supports education; it drives future learning forward. 

(7) Acceptability. Stakeholders find the assessment process and results to be credible. 

평가 목적에 따른 기준

The criteria and assessment purpose


Formative assessment

효과적인 형성평가는 종종 비공식적이고, 기회적이이나, 학습을 촉진하기위한 것입니다. 정의에 따르면, 그것을 특징 짓기 위해 두드러지는 기준은 촉매 효과catalytic effect입니다. 그것은 다음의 경우에 가장 잘 작동합니다.

(1) 교육 과정 및 / 또는 작업 흐름에 포함되며embed,

(2) 구체적이고 실행 가능한 피드백을 제공하고,

(3) 지속적이며

(4) 시기 적절하다.

Effective formative assessment is typically low stakes, often informal and opportunistic in nature, and is intended to stimulate learning. By definition, the criterion that stands out to characterize it is ‘‘catalytic effect’’. It works best when it 

(1) is embedded in the instructional process and/or work flow, 

(2) provides specific and actionable feedback, 

(3) is ongoing, and 

(4) is timely. 

    • 결과적으로 동등성, 재현가능성-일관성과 같은 기준의 중요성은 어느 정도 감소합니다.

    • 교육 효과와 교육의 질이 가장 중요하게 유지되는 가운데 , 타당성 - 일관성은 핵심이 된다.

    • 실현가능성 또한 지속적이고 시의적절하며 수험생의 어려움에 맞추어져 있다면 형성평가가 더 효과적이라는 사실에 대응하여 중요성이 증가합니다.

    • 마찬가지로, 수용가능성도 ((교수진과 학생 모두) 프로세스에 전념하고 피드백에 대한 신뢰성을 부여하며 중요한 영향을 미치는지 확인하는 데 특히 중요합니다.

    • Consequently, the importance of criteria such as equivalence and reproducibility-consistency diminishes to some degree. 

    • Validity-coherence remains central while educational effect and educational quality become paramount. 

    • Feasibility also increases in importance in response to the fact that formative assessment is more effective if it is ongoing, timely, and tailored to examinees’ individual difficulties. 

    • Likewise acceptability, both for faculty and students, is especially important if they are to commit to the process, give credibility to the feedback they receive, and ensure that it has a significant effect.


Summative assessment

    • 효과적인 총괄평가는 일반적으로 중부담, 고부담이며 기본적으로 책임에 대한 필요성에 응답하기위한 것입니다.

    • 종종 일관된 고품질의 테스트 자료, 중요한 컨텐츠 전문 지식, 체계적인 표준 설정 프로세스 및 안전한 관리가 필요합니다.

    • 따라서 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이 가장 중요합니다.

    • 실현가능성, 수용 가능성 및 교육적 효과 또한 중요하지만 정신 분석 기준과 동일한 정도로 중요하지는 않습니다. 정신분석적 기준은 점수에 대한 신뢰도와 근본적인 의미를 결정합니다.

    • 촉매 효과가 있으면 좋겠지만, 이 상황에서는 덜 강조됩니다. 그러나 유용한 피드백을 제공하지 않아 지속적인 교육에서 학습자를 지원할 수있는 기회를 놓치게됩니다.

Effective summative assessment is typically medium or high stakes and is primarily intended to respond to the need for accountability. 

It often requires coherent, high-quality test material, significant content expertise, a systematic standard-setting process, and secure administration. 

Consequently, criteria such as validity-coherence, reproducibility-consistency, and equivalence are paramount. 

Feasibility, acceptability, and educational effect are also important, but not to the same degree as the psychometric criteria, which will to a great extent determine credibility in the scores and the underlying implications. 

A catalytic effect is desirable but is less emphasized in this setting. 

However, by not providing useful feedback, we miss the opportunity to support the learners in their continuing education. 

이해관계자와 기준

The criteria and stakeholders



수험생은 조형 및 종합 평가에 vested interest가 있으며, 학습을 지원하는 정보를 찾는 데 적극적으로 관여해야합니다.

Examinees have a vested interest in both formative and summative assessment and they must be actively involved in seeking information that supports their learning. 

    • 형성 평가의 경우 교육 효과, 촉매 효과 및 수용 가능성이 학습자가되기 때문에 수험생에게 가장 큰 관심사가 될 수 있습니다.

    • 수험생은 타당성을 당연하게 여길 수도 있으며, 실현 가능성은 비용 및 편의성 측면에서 문제가됩니다.

    • 동등성 및 신뢰성 - 일관성은 덜 즉각적인 요구이다.

For formative assessment, educational effects, catalytic effects, and acceptability are likely to be of most concern to examinees since they are the drivers of learning. 

Examinees may take validity-coherence for granted and feasibility will be an issue in terms of cost and convenience. 

Equivalence and reliability-consistency are less immediate. 

    • 총괄 평가의 경우, 공정성에 대한 인식은 수험생에게 가장 두드러 질 것입니다.

    • 따라서 타당성 - 일관성, 재현성 - 일관성, 동등성 및 수용성과 같은 기준이 가장 중요합니다.

    • 촉매 효과는 (특히 실패한 수험생의) 재교육을 지원합니다.

    • 성공적인 수험자에게 피드백이 제공되지 않거나 사용하지 않으면, 지속적 학습을 지원할 수있는 기회를 놓치게됩니다.

For summative assessment, issues related to perceived fairness will be most salient for examinees. 

Hence, criteria such as validity-coherence, reproducibility-consistency, equivalence, and acceptability will be most important. 

The catalytic effect will support remediation, especially for the unsuccessful examinees. 

When successful examinees are not provided feedback or do not use it, it misses the opportunity to support ongoing learning.


Teachers-educational institutions

교사와 교육기관은 학생들의 평가에서 교육과 책임에 대한 이중적인 역할을 수행하데 관련된 모든 측면에 관심을 가지고 있습니다. 위에 요약 된 내용과 일치하는 기준은이 두 가지 목적에 다르게 적용됩니다.

These stakeholders have interests in every facet of the assessment of students to fulfill their dual roles in education and accountability. Consistent with what was outlined above, the criteria apply differently to these two purposes.

교사 및 교육 기관 모두에게 학생 평가 정보는 중요한 부차적 목적이 있다.

이 데이터는 교육 과정의 결과에 대해 말합니다. 즉, 학생들의 총괄 평가는 적절하게 집합 된 것으로, 종종 교사와 교육 기관을위한 형성 평가의 역할을합니다. 이 목적에 관해서라면, 동등성, 재현성 - 일관성과 같은 기준보다 교육적 효과가 조금 더 중요하다. 타당성 - 일관성은 중요하지만 좋은 학생 평가의 일부로 다루어야하며, 실현가능성은 데이터가 이미 이용 가능하므로 straightforward해야 한다.

For both teachers and institutions, student assessment information serves an important secondary purpose. 

These data speak to the outcomes of the educational process. In other words, students’ summative assessments, appropriately aggregated, often serve as formative assessment for teachers and institutions. 

When combined for this purpose, criteria such as equivalence and reproducibility-consistency are a bit less important while educational effect and educational effect are a bit more important. 

Validity-coherence is important but should be addressed as part of good student assessment, while feasibility should be straightforward since the data are already available.

학생 평가 재사용 이외에도 교육 기관은 개별 교사 및 프로그램 평가에 engage합니다. 이러한 평가 응용 프로그램은 크게 formative 또는 summative로 분류 할 수 있으며 기준은 위에서 언급 한대로 적용됩니다.

Beyond repurposing student assessment, institutions engage in the assessment of individual teachers and programs. 

These assessment applications can be broadly classified as either formative or summative and the criteria apply as noted above.



환자는 형성 평가의 사용을 확실히 지지하지만, 총괄평가가 더 즉각적인 관심사입니다.

따라서 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이 가장 중요합니다.

실현가능성, 수용가능성, 교육 효과 및 촉매 효과는이 그룹에 덜 관심의 대상입니다.

그러나 장기적으로는 지속적 개선을 지원하는 형성 평가가 동동하거나 더 중요할 것입니다.

While patients certainly support the use of formative assessment, summative assessment is a more immediate concern. 

Consequently, criteria such as validity-coherence, reproducibility-consistency, and equivalence are of the most importance. 

Feasibility, acceptability, educational effect, and catalytic effect are of less concern to this group. 

In the long term, however, formative assessment that supports continuous improvement will be of equal or greater importance.

헬스케어 기관, 규제기관

Healthcare system and regulators

의료 시스템 및 감독 당국의 가장 긴급한 요구는 의료제공자provider가 노동력으로 포함되기에 유능하고 안전한지 판단하는 것입니다. 이 필요성은 총괄 평가에 근거한 올바른 결정을 의미하므로 타당성-일관성, 재현성-일관성 및 동등성이 가장 중요합니다. 실행가능성도 중요합니다. 

The most pressing need of the healthcare system and the regulators is to determine which providers are competent and safe enough to enter the workforce. 

This need implies correct decisions based on summative assessment, so validity-coherence, reproducibility-consistency, and equivalence are paramount. Feasibility is also important. 

보건 시스템이 어떤 형태의 CQI에 관여하는 것이 점점 더 보편화되고 있습니다. 이러한 시스템은 종종 작업 흐름에 포함되며 의료 종사자에게 그들의 활동과 결과에 대해 지속적이고 구체적인 피드백을 제공합니다.

교육 효과, 촉매 효과, 실현 가능성 및 수용 가능성과 함께 타당성- 일관성은 핵심적인 요소입니다.

It is growing more common for health systems to engage in some form of CQI. 

These systems are often embedded in the work flow and they provide ongoing, specific feedback to healthcare workers about their activities and outcomes. 

Validity-coherence is central, along with educational and catalytic effects, feasibility, and acceptability.

In this article, we outline criteria for good assessment that include: (1) validity or coherence, (2) reproducibility or consistency, (3) equivalence, (4) feasibility, (5) educational effect, (6) catalytic effect, and (7) acceptability. Many of the criteria have been described before and we continue to support their importance here. However, we place particular emphasis on the catalytic effect of the assessment, which is whether the assessment provides results and feedback in a fashion that creates, enhances, and supports education. These criteria do not apply equally well to all situations. Consequently, we discuss how the purpose of the test (summative versus formative) and the perspectives of stakeholders (examinees, patients, teachers-educational institutions, healthcare system, and regulators) influence the importance of the criteria. Finally, we offer a series of practice points as well as next steps that should be taken with the criteria. Specifically, we recommend that the criteria be expanded or modified to take account of: (1) the perspectives of patients and the public, (2) the intimate relationship between assessment, feedback, and continued learning, (3) systems of assessment, and (4) accreditation systems.


새로운 전체론적 평가방법: 평가 프로그램(FEM, 2016)

A new holistic way of assessment: programmatic assessment

Cees P.M. van der Vleuten, Sylvia Heeneman



각 요소의 정당성

justification of its components

평가와 합격-불합격 결정의 분리

Decoupling of assessment and pass/fail decisions

단일 평가가 어떻게 왜곡되는지 보여주는 것은 매우 쉽다. 예를 들어, 실제 실행에서 대부분의 테스트는 신뢰성이 충분하지 않으며 우리는 그 결과로 상당한 잘못된 긍정적이고 부정적인 결정을 내린다.

It is very easy to demonstrate how any single assessment is fl awed. For example, Most of our tests in actual practice have insufficient reliability and we make substantial false positive and negative decisions as a result of that.

어떤 방법이든 측정할 수 있는 것에 한계가 있고 그 타당성은 제한될 것이다. 이것의 실질적 함의는 한 번의 측정은 측정이 아니며, 가능한 한 많은 정보를 결합할 필요가 있다는 것이다. 프로그램적 평가에서는 모든 단일 평가를 데이터 포인트라고 합니다. 데이터 포인트는 은유적으로 사진의 픽셀과 유사합니다. 단일 픽셀은 이 사진이 무엇에 관한 것인지 알려주지 않습니다.

any method has limitations in what it may measure and its validity will be limited. Th e practical implication is that one measure is really no measure and that we need to combine information as much as possible. In programmatic assessment any single assessment is called a data point. A data point is metaphorically similar to a pixel in a picture. A single pixel will not tell you what the picture is about.

개별 데이터포인트는 정보를 준다

Individual data points are informative

대부분의 평가 관행은 상대적으로 정보가 부족하다.

Most assessment practices are relatively information poor.

등급은 매우 형편없는 정보 전달자입니다. 그리고 이는 사람이 얻을 수 있는 가장 낮은 수준의 피드백이다. [5]. 특히 복잡한 기술을 평가할 때 그렇습니다.

A grade is a very poor information carrier and kind of represents the poorest feedback one may get [5]. Th is is particularly true when complex skills are being assessed

이러한 복잡한 기술들로 인해, 점수는 사실상 무의미하며 추가적인 개선에 대한 단서를 제공하지 않는다.

With these complex skills, grades are virtually meaningless and provide no cues for further improvement.

프로그램적 평가에서 모든 데이터 포인트는 정보가 풍부하고 피드백 지향적입니다. 피드백이 없는 평가가 있어서는 안 됩니다.

In programmatic assessment every data point is information rich and feedback oriented. Th ere should be no assessment without feedback.

평가 커뮤니티는 이를 발견하고 있으며 우리는 점수에서 단어로 전환하고 있습니다 [8]. [개별 데이터 포인트에 대해서는 의사결정이 필요하지 않다는 사실]은 [평가자가 주관성이나 신뢰성의 문제에 대해 걱정하지 않아도 된다는 것]을 의미한다. 오직 관심사는 풍부한 정보를 제공하였냐는 것이다.

The assessment community is discovering this and we are shifting from scores to words [8]. Th e fact that decision making is not needed in individual data points allows the assessor not to worry about issues of subjectivity or reliability. Th e only concern is to provide rich information.

다방면에 걸친 방법 선택

Eclectic choice of methods

프로그램적 평가에서 건설적 정렬은 모든 데이터 포인트의 핵심이다. 평가방법은 가능한 한 커리큘럼의 교육 목표의 의도를 반영해야 한다[9]. 평가방법의 선택은 그것을 사용하는 순간에, 그리고 평가 프로그램 전체 [10]와 관련하여 그것을 사용하는 정당성에 의해 정의된다. 무슨 방법이든 괜찮다. 전통적인 방법, 진정한 방법, 주관적인 방법, 개인화된 방법 또는 팀 지향적인 방법. 바람직한 교육 효과를 달성하기 위해 평가 방법을 다양하게 하는 것이 현명하다.

In programmatic assessment constructive alignment is key to any data point: the method should reflect the intent of the instruction goals of the curriculum as closely as possible [9]. Th e choice of method will be defined by your justification for using it at that moment in time and in relationship to the programme of assessment as a whole [10]. Any method may go: traditional, authentic, subjective, individualized or team oriented. It is wise to vary methods of assessment to achieve desirable educational effects.

최대한의 건설적 정렬을 달성하기 위해 교육 과제가 곧 평가 과제일 수 있다. 예를 들어, 임상 문제의 증거 기반 의학(EBM) 합성을 작성하기 위해 학습 프로그램에서 예정된 과제이지만 동시에 이 과제의 퀄리티를 평가할 수 있다.

To achieve maximal constructive alignment the educational task may also be the assessment task. For example, to be able to write an evidence-based medicine (EBM) synthesis of a clinical problem, a task scheduled in a learning program, but at the same time the quality of this task may be assessed.

전형적으로 우리의 평가 방법은 매우 모듈적이다. 그러나 종단적 평가도 생각하라. CanMEDS 또는 기타 프레임워크와 같은 현대의 역량 프레임워크는 일반적으로 프로그램 전체에 걸쳐 커리큘럼을 가져야 한다. 평가는 또한 본질적으로 종단적일 수 있다.

Classically our assessment methods are very modular. Th ink also of longitudinal assessment. Modern competency frameworks, such as the CanMEDS or any other framework, typically require curricula to have longitudinal strands throughout the program. Th e assessment may also be longitudinal in nature.

피드백, 성찰, 자기주도학습에는 도움이 필요하다

Feedback, reflection and self-directed learning needs support

피드백의 제공만으로는 그 피드백을 이용하기에 충분하지 않습니다 [11]. 마찬가지로, 자기 주도적 학습의 기초로서 성찰을 하기 위해서는 외부 지원이 필요하다[12]. 그래서 우리는 학생들이 그들의 훈련 프로그램을 통해 지도받는 멘토링 시스템을 도입했다. 멘토링은 학습자의 성공과 발전을 위한 매우 강력한 도구인 것으로 나타났습니다 [13].

The provision of feedback is not enough for feedback to be used [11]. Similarly, reflection as a basis for self-directed learning needs external support [12]. Therefore we have introduced a mentoring system where students are being coached through their training program. Mentoring has been shown to be a very powerful instrument for learner success and development [13].

멘토는 e-포트폴리오에 접근할 수 있다. 멘토와 학습자는 일년 내내 또는 그들이 중요하다고 생각하는만큼 각자 다른 빈도로 여러 번 만난다. 멘토 미팅은 학습자가 준비합니다. 그들은 포트폴리오의 정보를 성찰하고 자가 진단하며 잠재적인 교정조치를 제안해야 한다. 학습자와 멘토 모두 그들의 관계를 높이 평가한다. (크고 도전적인 과정에 있는) 학습자는 익명의 누군가가 아니며 멘토들은 학습자들과의 긴밀한 상호작용을 소중히 여긴다. 

The mentor has access to the e-portfolio. Mentor and learner meet a number of times throughout the year or in any other frequency that they deem important. Mentor meetings are prepared by learners. They are required to reflect on the information in the portfolio, to self-diagnose and to suggest potential remediation. Both learners and mentors appreciate their relationship. Learners are not anonymous persons in a big and challenging course and mentors cherish the close interaction with learners. 

학문적이든 개인적이든 학습자들의 문제점이 조기에 발견된다. 학습자들은 지지를 받고 있다고 느끼고 그들은 수월성을 위해 위해 도전한다. 최소 성능 또는 해제disengagement는 절대 용인되지 않습니다. 멘토들은 그들의 역할에 대해 훈련을 받긴 하지만, 더 중요한 것은 멘토 네트워크의 중요성이며, 이러한 훈련동안 동안 정보를 교환하고 스스로 배우기 위해 정기적으로 만나는 것이 더 중요하다.

Problems with learners, academic or personal, are spotted early on. Learners feel supported and they are challenged to excel. Minimum performance or disengagement is simply not tolerated. Mentors are being trained for their role, but more importantly they meet on a regular basis to exchange information and learn themselves during these meetings, stressing the importance of a mentor-network.

의사결정의 부담이 높아지면, 그에 따라 사용하는 데이터포인트도 늘어나야 한다.

Stakes of decision-making and number of data points are proportionally related

프로그램적 평가에서 형성평가 대 총괄평가의 개념은 연속적인 stakes로 대체된다. 모든 개별 데이터 포인트는 저부담이다. 그러나 무부담은 아니며, 왜냐하면 어떤 정보라도 전체 과정에 사용될 수 있기 때문이다. 일단 사진을 이해하기에 충분한 픽셀이 있다면, 고부담의 결정을 내릴 수 있다.

In programmatic assessment the notion of formative versus summative assessment is replaced by a continuum of stakes. Any individual data point is low stake. It is not of no stake, because any piece of information may be used in the whole process. Once there are sufficient pixels to understand the picture, high stake decisions can be taken.

고부담 결정 결과에 학습자가 놀라서는 안 된다. 따라서 중간 결정도 내려져야 한다.

High stake decisions should be of no surprise to the learner. Th erefore, intermediate decisions should be given as well.

평가정보를 의미있게 합산해야 한다

Meaningful aggregation of assessment information

결정을 내리기 위해서는, 모든 평가 정보를 종합해야 합니다. 합산은 일반적으로 같은 방법 내에서 이루어집니다. 예를 들어, OSCE에서 심폐재활 스테이션의 점수는 병력수집 및 의사소통 스테이션의 점수와 합산된다. 그러나 이 스테이션들은 개념적으로 공통점이 거의 없다. 프로그래밍 방식에서 평가 정보는 의미 있는 범주 내에서 여러 방법에 걸쳐 집계됩니다. 예를 들어, OSCE의 의사소통에 대한 정보는 (동일한 것에 대한) 다중 소스 피드백 평가의 정보와 함께 통합될 수 있다. 또한 의미 있는 집계가 이루어질 수 있는 방식으로 모든 평가수단을 설계하는 것이 중요하다. 실제로 이는 (대부분의) 평가가 역량에 따라 구조화됨을 의미한다.

In arriving at a decision, all assessment information needs to be aggregated. Conventionally aggregation is done within a method to a total. For example, in an OSCE it is common aggregate information on a resuscitation station with a history taking and communication station. Yet these stations have conceptually little in common. In programmatic assessment information is aggregated across methods within meaningful categories. For example, the information on communication in the OSCE may be aggregated with information from a multisource feedback assessment. Th is also reveals the importance of structuring all assessment instruments in such a way that meaningful aggregation can be done. In practice this means that (most) assessments are structured according to competencies.

고부담결정의 절차는 강건해야 한다.

High stake decision-making is procedurally robust

모든 데이터 포인트를 객관적으로 만들려고 노력하기보다, 데이터 포인트의 집합이 객관적이어야 한다.

Instead of trying to make every data point objective, the collective of data points should be objective.

예를 들어, 엄격한 체크리스트를 사용하는 것으로 달성할 수 있지 않으며, 그보다는 고부담 판단에 신뢰성을 가져다줄 적절한 절차에 대한 절차적 조치를 취해야 한다[14].

not achieved by for example strict use of checklists, but rather by taking procedural measures of due process that will bring credibility to the highstake judgment [14].

몇 가지 예가 도움이 될 수 있다. 고부담 결정은 개인이 아닌 전문가 위원회가 내린다. 위원회는 멘토들과 독립적이며 멘토는 할 말이 없다no say. 또한 멘토와 학습자 간의 관계를 보호합니다. 학습자는 멘토에게 솔직해질 수 있습니다. 위원회는 포트폴리오를 판단하기 위해 서술 기준을 사용한다. 기준은 서술적 정보이지 체크리스트가 아니다. 체크리스트는 프로세스를 사소한 것으로 만들trivialize 수 있습니다. 서술은 해석의 여지를 남기고 유연성을 제공한다.

A few examples may help. The decision is made by a committee of experts, not by an individual. Th e committee has independence to the mentors and the mentor has no say. Th is also protects the relationship between mentor and learner. Th e learner can be frank to the mentor. Th e committee uses narrative criteria to judge the portfolio. The criteria are narratives not checks. Checks would invite the process to trivialize. Th e narratives leave room for interpretation and provide flexibility.

예상과는 달리, 이 평가 절차는 그다지 비싸지 않다. 95%의 학습자는 정보가 명확하고 결정은 명확합니다.

Contrary to what might be expected, this assessment procedure is not very expensive. For 95% of learners the information is clear and the decision clear-cut.


프로그램적 평가는 평가에 대한 기존의 접근 방식에 따라 크게 다릅니다. 평가에 대한 우리의 전통적인 접근 방식은 교육에 대한 전통적인 관점과 일치한다. 교육은 모듈식이고 모든 모듈에 대한 숙달이 곧 역량의 증거이다. 모듈 테스트 종료 시 숙달 상태를 보여주는 것으로 충분하며, 정보를 바로 잊어버려도 된다. 지식 통합이나 실무로의 이전은 학습자에게 맡겨진다. 그것은 학습에 대한 숙달된 학습 접근법이나 행동주의 관점과 일치한다. 교사 중심의 소모적이고 비활동적인 학습은 이러한 교육적 관점과 일치한다.

Programmatic assessment differs dramatically with our traditional approach to assessment. Our traditional approach to assessment matches a traditional view on education: education is modular and mastery of every module is evidence of being competent. Showing mastery at the end of module test is sufficient and information may be quickly forgotten. Th e integration of knowledge or transfer to practice is left to the learner. Th is matches a mastery oriented learning approach or a behaviourist perspective on learning. Teacher-centred consumptive and inactive learning matches this education view.

현대 교육 프로그램은 더 구성주의적이다. 지식과 기술은 학습자들에 의해 만들어진다. 학습자 중심의 능동적인 학습이 주된 접근법이다. Authentic 학습 과제를 소개하고 임상 실무에 조기에 노출함으로써 실무에 대한 지식을 이전transfer하는 데 많은 관심이 있다. 지식 구성 요소 외에 복잡한 기술도 다루어지고 있습니다. 배움은 발달적인 것으로, 구획적인 것이 아니다.

Modern education programmes are more constructivist. Knowledge and skills are constructed by learners. Learner-centred and active learning is the predominant approach. Much attention is given to transfer of knowledge to practice by introducing authentic learning task and early exposure to clinical practice. Complex skills are being addressed beyond the knowledge component. Learning is developmental, not compartmentalized.

프로그램적 평가는 기존의 부록 'assessment drives learning'을 'learning drives assessment'로 되돌리기 위한 시도였다. 동시에, 근본적으로 다른 접근법은 시행하는 것이 어렵다는 것은 분명하다. 그것은 관련된 이해당사자들의 상당한 참여와 이해를 필요로 한다. 이것은 쉬운 일이 아니다.

Programmatic assessment has been an attempt to reverse the traditional adagium ‘assessment drives learning’ towards ‘learning drives assessment’. At the same time, it is clear that the radical different approach is difficult to implement. It requires quite some buy-in and understanding from the stakeholders involved. Th is is not an easy task.

프로그래밍 방식 평가의 구현은 앞서 말한 바와 같이 도전이다. 그것은 많은 이해관계자들이 납득할 필요가 있는 평가 프로그램을 대대적으로 정비해야 한다. 다른 주요 교육적 변화와 마찬가지로 이것은 강력한 변화 관리 전략을 필요로 한다.

The implementation of programmatic assessment is a challenge as said before. It requires a major overhaul of the assessment program in which many stakeholders need to be convinced. Just like any other major educational change this requires an intensive change management strategy.

평가 과정에서 좋은 피드백을 얻는 것은 두 번째 과제입니다. 고품질의 피드백을 주는 기술도 개발되어야 한다. 교수진의 훈련은 필수적이다. 또한 'less is more'이라는 mantra는 여기에도 들어맞는다. 낮은 품질의 피드백을 자주 하는 것보다는 높은 품질의 피드백을 덜 자주 사용하는 것이 좋습니다. 실제로 낮은 품질의 피드백은 신뢰성이 떨어지며, 학습자는 믿을 수 없는 피드백을 무시합니다 [23].

Getting good feedback in the assessment process is a second challenge. Giving high quality feedback is a skill that needs to be developed. Faculty training is imperative. Th e mantra ‘less is more’ also holds here: less frequent high quality feedback is preferred over frequent low quality feedback. Actually poor quality feedback is less credible and incredible feedback is ignored by the learner [23].

흥미롭게도, 프로그램 평가에서 의사결정 요소는 그렇게 문제가 되지 않는다. 그 절차는 실제 연습에서는 정말로 잘 작동하며 항소는 거의 일어나지 않는다.

Interestingly, the decision-making element in programmatic assessment is not so problematic. Th e procedures really works well in actual practice and appeals hardly occur.

비용은 프로그램적 평가에서 또 다른 문제일 수 있다. 멘토링, 개별화된 피드백 및 위원회 기반 결정에는 필요한 리소스가 필요합니다. 개선 전략은 자원의 방향을 신중하게 바꾸는 것이다. 우리의 현재 평가관행도 비싸긴 마찬가지다. 프로그램적 평가에는 평가 비용의 재분배가 필요하며, 이는 현재의 실무에서 어떤 것을 중단할 것인지에 대한 몇 가지 날카로운 선택이 필요할 수 있습니다 [24].

Cost might be another issue in programmatic assessment. Mentoring, individualized feedback and committee-based decisions requires the necessary resources. Th e challenge is to carefully re-orientate resources. Our current assessment practices are expensive as well. Programmatic assessment requires a redistribution of assessment costs and this may require some sharp choices in what to discontinue in our current practice [24].

마지막으로, 문제 기반 학습과 마찬가지로 하이브리드 구현도 가능할 수 있습니다. school-based 구현보다 workplace에 프로그램적 평가를 도입하는 것이 다소 쉬워 보인다. 예를 들어, 평가 프로그램에 더 많은 피드백을 도입하거나 학생 또는 멘토링 시스템에 대한 종방향 모니터링을 도입함으로써 부분적인 구현이 가능할 수도 있다. 그러나 문제 기반 학습[25]에서와 마찬가지로 하이브리드 구현은 하이브리드 결과를 제공할 것이며, 완전한 구현이 성공할 가능성이 가장 높습니다.

Finally, just like in problem-based learning hybrid implementations might be possible. Introducing programmatic assessment in the workplace seems somewhat easier than in school-based implementations. Partial implementations may also be possible for example by introducing more feedback into an assessment program, or to introduce longitudinal monitoring of students or a mentoring system. Just like in problem-based learning [25], hybrid implementations will provide hybrid outcomes; full implementations will have the best chance of success.

프로그램적 평가는 평가의 학습적 기능과 의사결정적 기능을 모두 최적화한다. 픽셀의 풍부함은 학습 과정에 도움이 되며 픽셀을 수집하면 학습자 진행에 대한 강력한 의사결정이 가능합니다. 프로그램적 평가는 평가에 현대적인 구성론적 학습 접근 방식을 조화시킬 수 있는 잠재력을 가지고 있다.

Programmatic assessment optimizes both the learning function of assessment and the decision-making function. Th e richness of the pixels will be beneficial to the learning process and the collection of pixels will allow robust decision-making on learner progress. Programmatic assessment has the potential to harmonize assessment with modern constructivist approaches to learning.

학생의 학습에 평가프로그램의 영향: 이론 vs 실천(Med Educ, 2015)

The impact of programmatic assessment on student learning: theory versus practice

Sylvia Heeneman,1,2 Andrea Oudkerk Pool,1,3 Lambert W T Schuwirth,2,3,4 Cees P M van der Vleuten2,3 &

Erik W Driessen2,3



AFL은 커리큘럼과 구체적인 교육 환경으로 전환translate되어야 한다. 학생들은 자신의 성과에 대한 충분하고 의미 있는 정보를 받아야 한다. 두 번째 필수적 요소는 학생들은 이러한 정보로부터 의미를 적극적으로 추상화하고 이를 사용하여 학습을 관리하고 성과 개선의 소유권ownership을 획득함으로써, 다음 번에 더 나은 성과를 달성하고 학습자로서 진보할 수 있다.9

Assessment for learning needs to be translated into curricula and concrete educational settings. students should receive enough and meaningful information on their performance. A second sine qua non is that students actively abstract meaning from this information and use it to manage their learning and gain ownership of their performance improvement, allowing them to perform better the next time and to progress as learners.9

학습에 도움이 될 수 있는 평가 환경의 요소 또는 특성에 관한 많은 연구가 보고되었다. 여기에는 

  • 지지적 학습 환경과 신뢰할 수 있는 피드백, 

  • 형성적 평가, 

  • 서술적 피드백, 

  • 피드백을 성찰하고 사용할 기회가 포함됩니다.13

A number of studies have reported on elements or characteristics of assessment environments that may be conducive to learning. These include 

a supportive learning environment and credible feedback,12 

formative assessment, narrative feedback and the opportunity to use feedback in reflection.13



The research setting is a 4-year, graduate-entry Master’s programme (50 students per year), designated the Physician–Clinical Investigator (P-CI) programme, at Maastricht University, the Netherlands. The curriculum is competency-based and uses the CanMEDS framework.18 In the programme, programmatic assessment is implemented; the structure and components are shown in Table 1.11

평가 프로그램은 다음 기능을 통해 학습에 대한 평가를 강화하도록 설계되었습니다. 

  • (i) 평가 및 과제 형식의 다양성은 progress 및 역량 개발에 대한 정보와 피드백을 개별 학습자에게 제공하는 것을 최적화하는 데 사용됩니다. 

  • (ii) 동업자와 교사의 서술적 피드백을 퍼포먼스에 대한 풍부한 정보를 제공하기 위해 사용한다. 

  • (iii) 모든 피드백과 정보를 포트폴리오로 하게 되며, 이것은 학생이 개인적인 성찰을 위해, 학습 내용을 자기-조절하고, 특정 학습 목표를 통해 학습에 대한 후속 조치를 취하는 데 사용합니다. 

  • (iv) 모든 학생들이 개인 멘토에 의해 지도된다.

  • (v) 평가 및 과제 또는 과제(표 1)는 학생들에게 합격/불합격 결정만을 초래하지 않으며, 궁극적 종합적 의사결정에 도움이 되도록 의도한다는 점에서 직접적으로 총괄적이지 않다. 

  • (vi) 다음 단계로 승격하기 위한 높은 수준의 결정은 포트폴리오에서 수집된 모든 정보에 기초한다.

The programme of assessment is designed to foster assessment for learning through the following features: 

  • (i) diversity in assessment and assignment formats is used to optimise the provision of information and feedback to individual learners about their progress and competency development throughout the year; 

  • (ii) narrative feedback from peers and teachers is used to provide rich information on performance; 

  • (iii) all feedback and information are combined into a portfolio and used by students for personal reflection, to self-regulate their learning and to follow up on learning through specific learning objectives; 

  • (iv) all students are coached by a personal mentor; 

  • (v) assessments and assignments or tasks (as shown in Table 1) are not directly summative in the sense that they do not result only in a pass/fail decision for the student, but are meant to be informative and contribute to the eventual summative decision at the end of a study phase, and 

  • (vi) a high-stakes decision for promotion to the next phase is based on all information collected and collated in the portfolio.

Methodology and data collection

A qualitative approach was chosen to explore the students’ own experiences in their natural context,19 using an interpretative, constructivist approach.20 Individual semi-structured interviews with 17 students (seven men and 10 women) were conducted. Students were sampled using maximum variation sampling to ensure that the multiple perspectives of individuals were represented.21

Ethical considerations

Analysis of interviews

Interviewing and analysis were conducted iteratively in order to facilitate the exploration of new themes and categories in subsequent interviews. Verbatim transcripts of the interviews were made and analysed using a type of theory-based thematic analysis, template analysis, in which a succession of coding templates, consisting of hierarchically structured themes, were applied to the data.28



학습을 지원 또는 억제하는 것으로 간주되는 종합 평가 프로그램의 요소

Elements of the comprehensive programme of assessment considered to support or inhibit learning

종합적인 평가 프로그램의 평가 및 평가 활동은 지원 및 억제 효과를 모두 가지고 있었다. 이것은 또한 개별 학생과 프로그램 내에서의 사회적 상호 작용과 같은 요소에 대해서도 마찬가지였다. 표 3

Evaluation and assessment activities from the comprehensive programme of assessment, had both supporting and inhibiting effects. This also held true for factors inherent in the individual student and in the programme, such as social interaction amongst students and the curriculum. Table 3

학습 환경 평가에서 학습의 능동적 구성에 중요한 것으로 간주되는 학습의 레이어

Layers of learning considered important for the active construction of learning in an assessment for learning environment

학생들은 몇몇 '학습 레이어'를 인식했다. 여기에는 

    • 돌아올 평가 및 과제에 의해 촉진되는 학습 활동, 

    • 실제 평가 중 학습, 

    • 합적인 평가 프로그램에 의해 생성된 정보와 피드백을 통한 학습 등이 포함됩니다.

Students perceived several ‘layers of learning’. These included 

    • learning activities instigated by upcoming assessments and assignments, 

    • learning during the actual assessment, and 

    • learning from the information and feedback generated by the comprehensive programme of assessment.

평가 및 과제 수행 시 발생하는 학습 활동: 사전 평가 효과

Learning activities instigated by assessment and assignment tasks: pre-assessment effects

평가 또는 과제는, 형성적 과제로서, 정보를 제공하고 포트폴리오에서 사용하도록 설계되었다. 그러나 대부분의 학생들이 이러한 과제가 총괄적인 합격/불합격 결정과 관련이 있다고 보았기 때문에, 실제로는 그렇게 인식되지 않닸다. 이는 평가일이 다가옴에 따라 연구 활동이 증가된 사전 평가 효과를 가져왔다.

Assessments or assignments were designed to give information, as formative tasks, and to be used in the portfolio. This was perceived differently by most students because these tasks were seen to be associated with summative pass/fail decisions. This resulted in pre-assessment effects of increased study activity as the assessment day drew nearer.

만약 당신이 당신의 지식 테스트를 통과하지 못한다면, 당신은 재시험을 봐야 한다. 합격 또는 불합격의 개념은 여전히 존재한다. (인터뷰 11)

if you do not pass your knowledge tests, you have to resit them. So, the concept of pass or fail still exists really. (Interview 11)

'패스'만 받으면 충분하다는 메시지는 그들이 탁월함을 위해 노력하도록 동기를 부여하지 않았다. 평가 과제가 같은 순간에 다른 (평가) 활동과 경쟁해야 할 때, 탁월함보다는 허용 가능한 기준을 목표로 하는 이러한 경향은 특히 지배적이었다.

The message that a ‘pass’ was enough did not motivate them to strive for excellence. This tendency to aim for acceptable standards rather than excellence was especially dominant when the assessment task had to compete with other (assessment) activities at the same moment,

평가 활동 중 학습: 순-평가 효과

Learning during assessment activities: pure assessment effects

모든 학생들은 구두 시험이 배움에 매우 유용하다고 느꼈다. 어떤 사람이 사실 대신에 그리고 전문가 앞에서 메커니즘에 대해 설명해야 하는 기대는 학생들이 더 깊은 이해를 하도록 만들었다. 또한 전문가와의 상호작용은 직접적인 학습 효과(즉, 순수 평가 효과)가 있었다.

All students felt that oral examinations were very valuable for learning. The expectancy that one would be required to explain mechanisms instead of facts, and in front of an expert, constructed the students’ learning towards a deeper understanding. In addition, the interaction with the expert had a direct learning effect (i.e. a pure assessment effect):

종합적인 평가 프로그램에 의해 생성된 정보와 피드백을 통해 학습: 평가 후 효과

Learning from information and feedback generated by the comprehensive programme of assessment: post-assessment effects

동료의 피드백은 성찰을 위한 좋은 자료 출처로 평가되었고, 프로페셔널리즘이나 협업과 같은 그룹 작업과 관련된 역량에 유용했다.

Peer feedback was valued as a good source of material for reflection, and was useful for competencies related to group work, such as professionalism and collaboration.

피드백은 프로그램에서 너무 밀접하게(고밀도로) 계획되어 있어서 피드백을 전달하고 받고 피드백을 성찰하는 것이 지겨웠다weariness. 또한, 피드백의 밀도는 품질에 영향을 끼쳤다; 때때로 피드백 라운드에서 제기된 것과 동일한 피드백을 동료 피드백이 재현하면서 반복되었다.

Feedback was too densely planned in the programme, leading to a weariness of delivering and receiving feedback and reflecting on the feedback. In addition, the density of feedback affected its quality; sometimes the same feedback was repeated as peers reproduced issues that had already been raised in feedback rounds,

학생들은 피드백을 제공하라는 압박감을 느꼈으며, 이는 학습에 효과적인 것은 아닌 세부 사항('개선 사항 조사')에 대한 피드백으로 이어졌습니다.

students felt pressurised to offer feedback, which, as they said, led to feedback on details (‘searching for improvement points’), not all of which were effective for learning:

저는 단지 여러분이 원하는 부분이 있다는 것을 알게 됩니다: 저는 여전히 개선을 위해 몇 가지 요점을 제기해야 하고, 그리고 여러분은 몇 가지 사소한 세부 사항을 찾기 위해 깊게 파고들어야 합니다 [...] 그리고 나서, 그 코멘트를 결정하는 것은 매우 어렵습니다.

I just find that there comes a point where you feel like: I still have to bring up some points for improvement, and then you have to dig deep to find some little detail [...] And then it’s very tricky to determine if the comment concerns a genuine issue or if it’s just far-fetched. (Interview 10)

학생들은 성찰이 외부와 내부의 동기 모두에 의해 이루어졌다고 지적했다.

Students indicated that reflection was driven by both external and internal motivations.

포트폴리오는 노동 집약적인 것으로 인식되었고, 학생들은 포트폴리오와 바쁜 프로그램의 요구 사이에 부정적인 상호작용을 언급했다. 이로 인해 포트폴리오 작업에 대해 계산적이게appraisal 되었고, 포트폴리오 평가를 통과하는데 필요한 작업이 얼마나 되는지 따지게되었다. 이는 포트폴리오에서 일하는 내적 동기가 감소되거나 제한적이라는 인식과 관련되었다.

The portfolio was perceived as labour-intensive and students noted a negative interaction between it and the demands of a busy programme. This led to an appraisal of working on the portfolio, in which work done was weighted according to the work needed to pass the portfolio assessment. This was associated with a perception of decreased or limited intrinsic motivation for working on the portfolio.

'건강 옹호자'와 같은 일부 역량은 커리큘럼에서 덜 다루어졌으며, 이는 또한 외부적 동기 부여에 의해 주도된 성찰을 낳았다.

some competencies, such as that of ‘health advocate’, were less recognised in the curriculum, and this also led to reflection driven by external motivation.

학생의 작은 부분군(남학생)은 포트폴리오가 전체적으로 외부적 동기부여에 의해 주도된 부정적인 경험이었다고 지적했다. 이는 과정에서의 인식된 강제적 특성과 관련이 있으며, 학생이 신뢰할 수 있는 것으로 평가했을 때만 피드백을 사용하는 것과 유사한 경향이다.

A small subgroup of (male) students indicated that the portfolio as a whole was a negative experience, driven mainly by external motivation. This was linked to the perceived compulsory nature of the process, a tendency to use feedback only when it was valued as credible by the student

모든 학생들은 그들의 멘토들과의 만남과 토론과 피드백을 통해 배운 것에서 이득을 보고하였다. 대부분의 학생들은 포트폴리오에 대한 성찰적인 글쓰기가 피드백과 학습의 자율적 규제에 유용하고 가치 있다고 생각했다.

All students reported benefiting from meetings with their mentors and having learned from the discussions and feedback. Most students perceived the reflective writing for the portfolio as valuable and as useful for learning from the feedback and for the self-regulation of learning:



우리는 평가 프로그램 자체뿐만 아니라 개별 학생 또는 프로그램과 관련하여 학습을 지원하거나 억제하는 요소를 식별하였습니다. 분석 결과, 어떤 요소가 학습을 지원할지 또는 억제할지는 그 요소를 학습자가 어떻게 인지하느냐에 따라 결정된다는 것이 밝혀졌습니다.

we identified elements that supported or inhibited learning which related not only to the assessment programme itself, but also to the individual student or to the programme . The analysis revealed that whether or not an element would support or inhibit learning depended on how it was perceived by the individual learner.

따라서 조사 결과는 다음과 같이 나타났다. 

  • (i) 평가 프로그램의 일부로서 구두시험은 긍정적이고 순수한 평가 학습 효과를 가지고 있다.

  • (ii) 채점 시스템(예: 합격/불합격 또는 채점)이 학습 반응에 중요한 결정 요인이었다. 

  • (iii) 학습 및 성찰 활동에 대한 동기 부여가 일부 학생들에게는 외부적이었다. 

  • (iv) 포트폴리오의 성찰 활동은 긍정적으로 간주되었으며, 전체 평가 프로그램에 의해 생성된 정보와 피드백의 후속 조치를 지지하는 것으로 보였으며, 사후 평가 학습 효과와 학습의 자기조절을 유발하였다.

Thus, findings showed that: 

  • (i) oral examinations as part of programmatic assessment had positive, pure assessment learning effects; 

  • (ii) the grading system (i.e. pass/fail only or marks) was an important determinant of the learning response; 

  • (iii) motivation for learning and reflective activities was extrinsic for some students, and 

  • (iv) reflective activities in a portfolio were regarded positively and were seen as supportive of the follow-up of the information and feedback generated by the comprehensive programme of assessment, evoking a post-assessment learning effect and self-regulation of learning.

평가 및 과제 활동의 형성적 특성은 학생들게 원래의 의도대로 인식되지 않았으며, 오히려 사전 평가 효과가 우선되는 총괄평가 활동으로 해석되었다.4

It was evident that the formative nature of the assessment and assignment activities was not regarded as such by the students; rather, these were interpreted as summative assessment activities for which pre-assessment effects prevailed.4

이론적인 개념들을 실행으로 해석하는 것이 계획대로 되지 않는 것은 드문 일이 아니다.

It is not uncommon for the translation of theoretical concepts into practice not to go as planned.

본 연구에서는, 이러한 구현 관련 요인들은

  • 시간의 접근에 대한 절차와 바쁜 프로그램의 영향 

  • 피드백을 제공할 의향 

  • 친화력 부족 또는 부정적 동기 

  • 총괄평가의 지속적인 메시지(예: 재교육 세션의 결과) 

In the current study, these implementation-related factors were recognised in addition to 

  • the effects of procedures and a busy programme on access to time or 

  • willingness to provide feedback, 

  • lack of affinity or negative motivation, and 

  • a persistent message of summative assessment (e.g. as a result of the organisation of remediation sessions).

이 학생들의 과거 교육 경험을 전체적으로 보면, 그들이 고전적이고 종합적인 합격/불합격 시스템에 몰두했다는 것을 잊어서는 안 된다.

It should not be forgotten that these students have been immersed in a classical, summative pass/fail system during their entire previous education.

기존의 평가 정보에 입각한 관행에서 벗어나 가치 있는 정보 제공자로서의 평가의 비전을 향해 나아가는 것은 쉽지 않을 수 있습니다. Taras36,37은 모든 평가는 판단을 내리는 총괄 평가에서 시작한다고 주장했다형성적 평가는 실제로 후속 피드백 루프를 나타냅니다. 이 피드백 루프에서 학생은 원하는 실제 성과를 모니터링하기 위해 총괄 평가와 피드백을 사용하게 되며, 후속 학습 목표를 수립합니다.

It may not be easy to break away from conventional assessment-informed practices and move towards a vision of assessment as a valuable information-provider. Taras36,37 argued that all assessment starts with summative assessment, in which a judgement is given, and that formative assessment actually represents the subsequent feedback loop, in which the summative assessment and feedback are used by the student to monitor the desired and actual performance, and make learning objectives for follow-up.

이러한 효과는 타라스, 36,37에 의해 영감을 받은 '형성적 평가 루프' 또는 평가 후 평가 작업 완료 또는 피드백을 받은 후 학습이 이루어지는 평가 후 효과로 칭할 수 있다.3

This effect could be termed the ‘formative assessment loop’, as inspired by Taras,36,37 or as a post-assessment effect, whereby learning takes place after the assessment task has been completed or feedback received.3

이는 또한 평가의 촉매 효과로 설명되며, 이것은 평가가 피드백을 생성하며, 교육을 강화하고 지원할 기회를 만들고, 이론에 따라 학습을 전진시킬 수 있다.38 요약하면, 평가 및 과제를 '형성적'이라고 지칭하는 것은 이론과 맞지 않을 수 있으며, 학생의 인식과도 맞지 않을 수 있다. 그러나 프로그램적인 평가 접근법을 사용하는 것은 여전히 사후 평가 효과를 통한 학습으로 이어질 수 있다.

This has also been described as the catalytic effect of assessment, in which the assessment generates feedback, which, in turn, creates the opportunity to enhance and support education, and to move learning forward.38 In summary, designating assessment and assignment tasks as ‘formative’ may not align with the theory, and will not match the perception of students, but using a programmatic assessment approach may still lead to learning via a post-assessment effect.

성적등급제는 또한 학습 반응에 영향을 미치는 것으로 나타났습니다.

The grading system was also shown to influence the learning response.

윌킨슨43은 패스 기준이 정의되어야 한다고 강조했다. 현재 상황에서 criterion-referenced standards은 성과를 '실패', '통과' 또는 '매우 뛰어남'을 대표하는 것으로 지정하는 데 사용되었지만, 합격/불합격'을 사용하는 평가 과제의 맥락에서 학생들은 이것을 명확하게 인지하지 못했다. 따라서 학교의 기대치를 명확히 전달하고, 조심스럽게 도입하는 것이 필요할 것이다.

Wilkinson43 emphasised that the pass standard must be defined. Although criterion-referenced standards were used to designate performance as representative of ‘fail’, ‘pass’ or ‘excellent’ in the current setting, this was less clearly perceived by students in the context of the assessment task using pass/fail grading, which again indicates that careful implementation and the communication of expectations is important.

패스에 만족하거나, 학습을 위한 외부 동기 부여요소로서 성적이 필요하다고 말하는 학생이 반드시 평생 학습자가 되지 못하는 것은 아니다: 다른 평가나 과제의 우선순위 결정과 같은 다른 맥락적 요소가 그 당시에는 우선할 수 있다. 포트폴리오 시스템에 (글자) 등급을 추가하는 것이 지식과 기술에 관한 학생들의 확신과 자신감을 증가시킨다는 어떤 증거들이 있다.44 총괄평가 프로그램에서의 피드백과 점수들의 조합은 신중하게 설계되어야 할 필요가 있다.

A student who is satisfied with a pass or expresses a need for a grade as an extrinsic motivator to learn is not necessarily a poor lifelong learner: other contextual factors may prevail at that time, such as the prioritising of another assessment or assignment tasks. There is some evidence that adding a (letter) grade to a portfoliobased system increases students’ affirmation and self-assurance regarding knowledge and skills.44 The combination of feedback and grades in a comprehensive programme of assessment needs to be carefully designed with awareness of the effects on student learning.

소수의 학생들에게는 포트폴리오의 성찰적 실천이 유용하다고 인식되지 않았다. 이 학생들은 포트폴리오 평가를 통과하는데 필요한 것만을 하기 위한 제한된 내적 동기부여와 신중한 노력을 보여주었다. 그러나, 이것이 항상 흑백논리의 문제는 아니었다. 그리고 외부적인 동기에도 불구하고, 학생들은 총괄평가 프로그램에 의해 생성된 정보로부터 배웠다고 말했다. 이는 개인, 업무 및 상황에 따라 피드백에 대한 조절초점(촉진 또는 예방)이 혼합될 수 있다고 보고한 Watling 등,26의 결과와 일치한다.

For a minority of students, the reflective practice in the portfolio as such was not perceived as useful; these students demonstrated limited intrinsic motivation and a deliberate effort to do only what was necessary to pass the portfolio assessment. However, this was not always a black-and-white issue, and despite the extrinsic motivation, students indicated that they did learn from the information generated by the comprehensive programme of assessment. This aligns with the findings of Watling et al.,26 who reported that the regulatory foci (promotion or prevention) to feedback may blend depending on the individual, task and context.

It is widely acknowledged that assessment can affect student learning. In recent years, attention has been called to 'programmaticassessment', which is intended to optimise both learning functions and decision functions at the programme level of assessment, rather than according to individual methods of assessment. Although the concept is attractive, little research into its intended effects on students and their learning has been conducted.


This study investigated the elements of programmatic assessment that students perceived as supporting or inhibiting learning, and the factors that influenced the active construction of their learning.


The study was conducted in a graduate-entry medical school that implemented programmatic assessment. Thus, all assessmentinformation, feedback and reflective activities were combined into a comprehensive, holistic programme of assessment. We used a qualitative approach and interviewed students (n = 17) in the pre-clinical phase of the programme about their perceptions of programmaticassessment and learning approaches. Data were scrutinised using theory-based thematic analysis.


Elements from the comprehensive programme of assessment, such as feedback, portfolios, assessments and assignments, were found to have both supporting and inhibiting effects on learning. These supporting and inhibiting elements influenced students' construction of learning. Findings showed that: (i) students perceived formative assessment as summative; (ii) programmatic assessment was an important trigger for learning, and (iii) the portfolio's reflective activities were appreciated for their generation of knowledge, the lessons drawn from feedback, and the opportunities for follow-up. Some students, however, were less appreciative of reflective activities. For these students, the elements perceived as inhibiting seemed to dominate the learning response.


The active participation of learners in their own learning is possible when learning is supported by programmaticassessment. Certain features of the comprehensive programme of assessment were found to influence student learning, and this influence can either support or inhibit students' learning responses.

Tristan Price1,2, Nick Lynn1,2, Lee Coombes3, Martin Roberts1,2, Tom Gale1,2, Sam Regan de Bere1,2, Julian Archer1,2*



의학교육의 국제화는 의대의 최근 확산과 의대생들의 이동성을 의미한다. 세계적으로 1995년과 2003년 사이에 의과대학 수는 약 54% 증가했고 그 이후로 계속 증가해 왔다. 어떤 면에서는 이것은 세계화가 고등교육에 미치는 영향의 일부분이며, [학생들에게 해외에서 공부하는 것을 선택할 기회를 주는 자유 시장]과 [노동력 요구를 충족시키기 위해 해외 시민들을 고등 교육에 조달하는 것을 목표로 하는 정부정책 목표를 갖는 관리형 시장]에 의해 추진된다. .8

The internationalization of medical training refers to the recent proliferation of medical schools and the mobility of medical students. Globally, it has been reported that between 1995 and 2003 the number of medical schools has increased by around 54% and has been rising ever since.7 In some respects this is part and parcel of the impact of globalization on higher education more generally, driven by both the free market giving students the opportunity to choose to study abroad, and the managed market whereby government policies have been aimed at procuring higher education for its citizens from abroad in order to meet workforce needs.8

이와 연관지어, 의료진의 이동성이 현저하게 증가했다. 이는 의료 교육의 국제화에 의해 공급 측면에 도움이 되며, 의사 및 기타 의료 전문가와 함께 훈련된 국가 이외의 국가 시스템에 점점 더 익숙해지고 있습니다. 게다가, 특히 유럽 경제 지역에서, 자유무역협정은 노동의 자유로운 이동을 가정한 내부 시장을 창출하려고 노력했다. 수요 측면에서는, 선진국 경제에서는 자격 있는 의사들의 수가 거의 보편적으로 부족하며, 의과대학들은 증가하는 지역에 대한 수요에 대처하기 위해 압박을 받고 있다. 

Relatedly, there has also been a marked increase in the mobility of the medical workforce, aided on the supply side by the internationalization of medical training, with doctors and other healthcare professionals increasingly familiar with the systems of countries other than those in which they trained. In addition, free trade agreements, most notably in the European Economic Area, have sought to create internal markets predicated on the free movement of labor.9 On the demand side, in highly developed economies there is an almost universal shortage of qualified doctors,10 with medical schools under strain to cope with the rising demand for places. 

이것의 순수net 효과는 그들이 결국 진료할 환경과 전혀 다른 교육과정, 규제, 문화적 기준을 가진 시스템 하에서 훈련해 온 의사들의 수의 증가이다국제 의학교육 표준에 관한 뚜렷한 차이에 대한 우려가 반복적으로 제기되어 왔다. 그리고 어떤 경우에 학생들은 그들의 본국가에서 의과대학에 입학하지 못했을 때 해외 의대에 입학허가를 받는다.12 따라서 의료 지도자들은 새로운 "글로벌 안경"을 통해 표준화와 규정을 보아야 한다.

The net effect of this has been an increasing number of doctors who have trained under a system with different curricula, regulatory and cultural norms than the one in which they end up practicing. Concerns have repeatedly been raised about marked differences in the standards in medical education internationally11 and in some cases that students are being admitted to medical schools overseas who would not have gained entry in their domiciled nation.12 As a result medical leaders are having to view standardization and regulation through new “global glasses.”9

세계화의 역학 외에도, (국가가 멀리 떨어진 곳에서 전문직 종사자들에 대한 통제를 촉진하고자 하는) 신자유주의 경영시스템은 평가 방법론의 중앙 집중화와 표준화를 가져왔다. 이 과정에서 가장 큰 촉매는 의료계 종사자들에 대한 규제를 강화하라는 대중의 압력을 증가시킨 고위층 스캔들이었다.15

In addition to the dynamics of globalization, neo-liberal systems of management, where the state seeks to promote its control of professionals from a distance, has resulted in the centralization and standardization of assessment methodologies.2,13,14 One major catalyst in this process has been high profile scandals that have increased public pressure for greater regulation of the health professions.15

이후 표준화를 향한 추진은 국가 및 기타 대규모 면허 시험에 대한 근거의 기초를 집중시켰다. 이 문제에 대해서는 의견이 나뉜다.

The subsequent drive towards standardization has brought into focus the evidence base for national and other large scale licensing examinations. Opinion on this subject is divided,16,17

일부 학자들과 교육론자들은 모든 새로운 의사들이 최소 기준을 달성했는지 확인하기 위해 검사를 받아야 한다고 주장한다,21  그리고 모두가 그 직업에 들어가기 위해 통과해야 하기 때문에 그것은 '공정'하다. 이를 지지하는 또 다른 근거는 자원과 전문성을 풀링하는 것이 테스트 표준을 높여줄 뿐만 아니라, 비용 효율적이라는 것이다.22,23

Some academics and educationalists argue that all new doctors should be tested to make sure that they have achieved a minimum standard,21 and that all must pass to enter the profession so it is ‘fair.’19 A further argument for pooling resources and expertise is that it drives up testing standards and is cost effective.22,23

이러한 주장은 부분적으로 의과대학 평가가 표준화되지 않았다는 우려에 의해 주도되었다,24 그리고 의과대학별로 표준화되지 않은 평가는 시험에서, 그리고 더 나아가 진료에서 불공평한 차이를 만든다.

These arguments for better collaborative working have been driven in part by concerns that medical school assessment is unstandardized,24 and that this makes an unfair difference to subsequent performance with testing,25,26 and more importantly in practice.27-30

일부 최근 연구는 NLE 점수와 환자 결과, 불만 사항 사이의 상관 관계를 보여 주었지만 이것은 NLEs가 더 나은 의사들을 이끌었다는 주장을 그 자체로 뒷받침하지 않는다.34,35  교란 변수 중 하나는 가장 높은 점수를 받은 사람들이 가장 좋은 직업을 가질 가능성이 있다는 증거이다. 그리고 이러한 (더 나은) 작업 환경은 더 나은 환자 결과와 더 적은 불만사항으로 이어질 수 있다.

Although some recent studies have shown correlations between NLE scores and both patient outcomes31 and complaints,28 this does not in itself support the assertion that NLEs lead to better doctors.34,35 One of the confounding variables identified is the evidence suggesting that those who get the highest scores are likely to get the best jobs, and it is this working environment that may lead to both better patient outcomes and fewer complaints.36-38

이와 동시에, 이러한 방식으로 의학교육을 표준화하는 것이 커리큘럼의 혁신과 발전을 줄일 수 있다는 우려도 있다. 

그리고 NLE는 현재 의과대학 전체에 걸쳐 그리고 최근에는 실무에서 새로운 형태의 시험으로 시대에 뒤떨어져 있습니다.4,5,16  일부 의견제출자들은 NLE의 초점은 쉽게 "시험가능한" 학습 성과라고 제안하였으며, 그러한 역량이 실제 의료행위와 잘 상관되지 않는다고 지적한다. 또 어떤 이들은 학생들이 가장 높은 점수를 얻기 위해 경쟁하면서, 스트레스와 번아웃을 겪는다며 NLE가 학생에게 미치는 결과에 초점을 맞추었다.27

At the same time there are concerns that standardizing medical education in this way will reduce innovation and advancements in curricula,18,39,40 and that NLEs are now outof-date with the new modalities of testing throughout medical school and more recently in practice.4,5,16 Some commentators have suggested that learning outcomes that are easily testable simply become the focus of NLEs, and that those competences do not correlate well with actual practice.17,18,41 Others have focused on the consequences of NLEs for candidates, including stress and burnout as students compete for the highest grades.27



Information on NLEs is substantial but dispersed. As such, to answer the central research question, three different sources of information were searched.

The full inclusion and exclusion criteria is listed in Table 1.

In order to further develop the typology of NLEs that is presented in this paper, medical regulators’ websites or those bodies responsible for licensing doctors were reviewed. The search was limited to the 49 countries described by the United Nations (UN) as ‘very high human development.’45 This limitation was applied as it was assumed that only those countries with adequate resources would be likely to have a NLE. From each website any publicly available details were extracted about how doctors are licensed in that country and the process by which each regulator dealt with doctors who wished to live and work in their jurisdictions.



The data from this paper are therefore derived from three sources: the academic literature, publicly available information from regulators’ websites, and a survey of medical regulators.



온라인 사이트에서 NLE에 대한 세부 정보를 제공하는 23개 국가는 표 2에 나와 있습니다. 여기에는 NLE의 구성요소 및 후보 유형(예: 국제 의료 졸업생)에 대한 정보만 포함됩니다.

The 23 countries whose online sites yielded details about a NLE are listed in Table 2. This includes information on the component parts of the NLE as well as the candidate type eg, international medical graduate only.

후보자에 따라 분류되는 자격증 시험에 대한 네 가지 접근방식이 기본적으로 존재한다.

Categorized according to candidacy, essentially four different approaches to licensing examinations exist:

1. 국가 사법권에서 진료하고자 하는 의대졸업생은 국가 자격증 시험을 통과해야 하는 경우

2. 국가 사법권이나 국제 의료 졸업생(IMG) 출신이든 모든 예비 의사가 해당 사법권 내에서 실습을 위해 국가 면허 시험에 합격해야 하는 경우

3. IMG의 자격요건이 국가 사법권의 학생과 비교 가능한 것으로 인정되지 않을 경우, 자격증 시험에 합격해야 하는 경우

4. 작동 중인 NLE이 없는 경우

1. Where graduating medical students wishing to practice in their national jurisdiction must pass a national licensing exam before they are granted a license to practice;

2. Where all prospective doctors, whether from the national jurisdiction or international medical graduates (IMGs), are required to pass a national licensing exam in order to practice within that jurisdiction;

3. Where IMGs are required to pass a licensing exam if their qualifications are not acknowledged to be comparable with those of students from the national jurisdiction;

4. Where there is no NLE in operation.

첫 번째 접근방식을 채택한 국가는 독일, 53 스위스, 폴란드, 54 바레인, 55 카타르,56 및 크로아티아 57이다. 이러한 관할권의 모든 국내 교육을 받은 학생들은 면허를 신청하기 전에 시험을 통과해야 한다. 그러나 일부 IMG는 EEA 내에서 일하는 경우, 예를 들어 EEA 내에서 졸업생들은 면허 시험에서 면제된다.

The countries that have adopted the first approach are Germany, 53 Switzerland, Poland,54 Bahrain,55 Qatar,56 and Croatia.57 All home trained students in these jurisdictions are required to pass the examination before they can apply for a license to practice. However, some IMGs may be exempted, eg, graduates from within the EEA are exempt from the licensing exams if they work within the EEA.

두 번째 접근방식은 국가 사법권 내에서 의료 행위를 하려는 예비 의사가 의료 훈련을 마친 장소에 관계없이 국가 면허 시험에 통과해야 한다는 것이다. 이 접근법은 캐나다, 칠레, 일본, 홍콩, 한국, 아랍 에미리트 연합국(UAE), 미국을 포함한 다수의 국가들에서 사용된다. 이러한 시스템에 관한 대부분의 학술 문헌은 북미에서 나온다.58 그러나 국가 면허시험이 최소 국가 표준을 나타내는 반면, IMG에 대한 추가 훈련이 필요할 수 있다는 점에 유의해야 한다. 예를 들어, 미국에서는 서로 다른 관할권이 그들 자신만의 NLE pass rate를 설정하며, 따라서 IMG는 면허를 취득하기 전에 적어도 1년 전에 해당 관할권 내에서 추가 훈련을 받아야 할 수 있습니다.

The second approach requires that any prospective doctor seeking to practice medicine within the national jurisdiction must pass the national licensing exam, regardless of where they have completed their medical training. This approach is used in a number of comparable countries, including Canada, Chile, Japan, Hong Kong, South Korea, the United Arab Emirates (UAE), and the United States. Most of the academic literature around these systems emanates from North America.58 It should be noted however that in some cases while the national licensing exam represents a minimum national standard, further training may be required of IMGs. For example, in the United States, where different jurisdictions set their own NLE pass rates, IMGs may have to undertake further training within that jurisdiction of at least a year before gaining a license.

면허 시험의 세 번째 범주는 IMG만을 대상으로 하며, 이러한 이유로 일부에서는 엄격히 말해서 "국가적인" 면허 시험이라고 인식하지 않을 수도 있다. 그러나, 이러한 시험의 시행은 국가 수준에서 이루어지며, 시험은 특정한 기술보다는 일반적이고, 연습 면허를 얻기 위해서는 시험에서의 성공이 필요하다.

The third category of licensing examination only targets IMGs and for this reason some may not perceive it be, strictly speaking, a “national” licensing exam. However, administration of these examinations is conducted at the national level, the examinations cover generic rather than specific skills, and success in the exam is necessary in order to gain a license to practice.

이 접근법은 의료 위원회 웹 사이트에 포괄적인 정보가 제공되는 호주59와 뉴질랜드,60에서 사용되며, 장래의 IMG 의사들은 자신의 자격을 따라야 하는 '경로'를 결정할 수 있습니다. 호주와 뉴질랜드, 그리고 영국은 현재 면허 규제의 '인정' 모델을 운영하고 있다. 이러한 각각의 경우, 장래의 IMG 의사들은 그들의 언어 능력을 입증하고 그들의 기본적인 의료 자격에 대한 검증된 문서를 제공해야 합니다. 호주 시스템에서는 어떤 IMG 자격은 호주나 뉴질랜드 출신과 동등하다고 간주되지만 어떤 자격은 그렇지 않다. 수용 가능한 것으로 간주되는 자격을 확립하는 과정이 항상 간단하지는 않다.

This approach is used in Australia59 and New Zealand,60 where comprehensive information is provided on the medical council websites, allowing prospective IMG doctors to determine what ‘pathway’ into the physician workforce their qualifications require them to follow. Both Australia and New Zealand, as well as the United Kingdom, currently operate an ‘accreditation’ model of licensing regulation. In each of these cases the prospective IMG doctors are required to evidence their language competence and to provide validated documentation of their primary medical qualifications. In the Australian system certain IMG qualifications are considered to have parity with those of graduates from Australia or New Zealand, whereas others are not. The process that establishes which qualifications are deemed acceptable is not always straightforward.

유럽에서는 EEA 회원국들이 회원국을 가로질러 시민들의 자유로운 이동을 규정하는 지침에 의해 제한을 받는다. 이는 라이센스 검사의 세 번째 범주에 영향을 미치는데, 이는 EEA 외부에서 여권을 소지하고 있는 사람(여기서 비 EEA IMG라고 함)에만 국한되기 때문입니다. 이러한 비 EEA IMG의 경우, 유럽 전역에서 다양한 examination 프로세스를 수행해야 선택한 국가에서 실습을 수행할 수 있습니다. 일부에서는 이러한 프로세스가 결함이 있다고 주장하는데, 부분적으로는 라이센싱 프로세스와 관련하여 많은 EEA 회원국에서 사용할 수 있는 정보가 거의 없기 때문이며, 또한 구현과 퀄리티 보장에 일관성이 부족한 것으로 보이기 때문이다.61

In Europe, those countries that are EEA member states are constrained by directives that stipulate the free movement of citizens across member states. This has implications for this third category of licensing examination as it is limited to only those who hold passports from outside the EEA, referred to here as non-EEA IMGs.50 For these non-EEA IMGs it means that across much of Europe they are required to undertake a range of examination processes to gain a license to practice in their chosen country. Some argue that these processes are flawed, partly because there is often little information available in many of the EEA member states concerning their licensing processes and there appears a lack of consistency in implementation and quality assurance.61

예를 들어, 스웨덴에서는 EU/EEA IMG가 이수해야 하는 것보다 비 EU/EEA IMGs가 수행해야 하는 국가 면허 프로세스가 체계적이지 않고, 관료적이며 엄격한 것으로 기술하고 있습니다..61 다른 사람들은 그것이 스웨덴만의 경험이 아니라고 제안했습니다.62 이러한 형태의 NLE 접근법과 관련하여, 그리고 앞서 설명한 접근법과 달리, 결론을 도출할 수 있는 쉽게 구할 수 있는 연구가 부족하다는 점을 유념하는 것이 중요하다.

In Sweden for example, non-EU/EEA IMGs have described the national licensing process in that country as being disorganized, bureaucratic, and stricter than the process undertaken by EU/EEA IMGs.61 Others have suggested that the Swedish experience is not unique in Europe.62 In relation to this form of NLE approach, and unlike the previous approaches described, it is important to note that there is a lack of readily available research from which conclusions can be drawn.

마지막으로, 쿠웨이트와 몰타와 같은 관할권은 NLE를 그 관할구역과 IMG에서 훈련을 받은 장래의 의사들을 위한 직업으로의 진입을 규제하는 수단으로 삼았다.

Finally, jurisdictions such as Kuwait and Malta have eschewed NLEs as a means of regulating entry into the profession for both those prospective doctors who have trained in that jurisdiction and for IMGs.


직업 규제의 영향을 이해하기 위한 표준 경제 모델은 서비스 제공 비용과 그 품질, 즉 라이선싱은 비용을 증가시키지만 서비스 품질도 증가시킨다는 개념에 기초한다. Shapiro는 이 모델을 개발하였고, 비록 전문직을 규제하는 것이 서비스 제공의 전반적인 비용을 증가시키지만, 그것은 인적 자본에 대한 투자를 장려하기 때문에(더 나은, 효율적 훈련) 양질의 서비스를 제공하는 한계 비용을 감소시킨다.63 그러나 의학의 국제화는 이 모델의 직접적인 적용을 더욱 어렵게 만든다. 면허증은 자격을 갖춘 의사들의 총량net을 부족하게 만들 수 있기 때문에, 이용 가능한 의사들의 집단이 아무리 잘 훈련되어도 서비스의 질은 떨어뜨리게 된다.64

The standard economic model for understanding the impact of occupational regulation rests on the notion that there is a trade-off between the cost of service provision and its quality, ie, licensing increases the costs but also the quality of service. Shapiro developed this model, arguing that although regulating professions does increase the overall costs of service provision, it decreases the marginal costs of providing a quality service as it encourages investment in human capital (ie, better and more efficient training).63 However, the internationalization of medicine makes the direct application of this model more difficult, as licensing may result in a net shortage of qualified doctors, reducing the quality of service no matter how well trained the available pool of doctors.64

우리의 두 번째 범주인 IMG를 위한 면허를 가진 나라들은, 의료 제공의 요구를 충족시키는데 필요한 외국인 의사 채용을 유지하는 문제를 분명히 가지고 있습니다. 그래서 그들은 어느 정도의 실용주의를 적용합니다. 국제적 의사 부족에서 발생하는 요구는 IMG가 그들이 선택한 관할권에서 NLE를 통과하기 전에는 절대 의료행위를 금지하는 것은 아님을 것을 의미합니다. 

Those countries with across the board licensing, our second category, clearly have the problem of sustaining the recruitment of foreign doctors required to meet the demands of healthcare provision; as such they apply a degree of pragmatism. The demands that arise from the international shortage of physicians65 mean IMGs are not always prevented from practicing prior to passing the NLE in their chosen jurisdiction. 

북미 내에는 IMG가 최종적으로 통과해야 하는 NLE를 준비할 수 있도록 지원하는 광범위한 지원 시스템이 있습니다. 캐나다에서는 국가 면허 제도가 어느 정도까지는 IMG에 의해 circumvented 될 수 있습니다. 다양한 형태의 임시면허는 표준화의 필요성과 시골지역 내 의사 부족분을 메울 필요를 조화시키기 위한 목적으로 사용된다.66 따라서, 노동력 계획 관점에서, 국가 면허를 도입하는 것은 면허 시험 자체를 개발하는 것보다 더 부담이 큰onerous 과정일 수 있다. IMG의 의사들은 언어나 교육 시스템에 익숙하지 않기 때문에 의학 역량에 관계없이 불이익을 받을 가능성이 높다.68

Within North America there is an extensive support system which assists IMGs in preparing for the NLEs that they must eventually pass.66,67 In Canada the national licensing system is, to a degree, circumvented by IMGs using provincial licensing to practice until they are able to get full Licentiate of the Medical Council of Canada. The various forms of provisional licensing are used to balance the need for standardization against the need to cover doctor shortfalls within rural provinces.66 Thus, from a workforce planning perspective, introducing national licensing may be a more onerous process than developing the licensing assessments themselves. IMG doctors are likely to be disadvantaged, regardless of medical competence, as they are less familiar with the language and educational system.68

우리의 유형학의 세 번째 범주는 IMG의 자격요건이 국가 규정과 양립할 수 없는 것으로 간주될 때 일종의 자격증 시험을 보아야 하는 비슷한 문제에 직면하지만, 이러한 시스템은 일반적으로 더 다용도적이고 적응과 변화를 가능하게 한다. 호주에서 IMG는 [심각한 의사 부족에 직면하고 있는 시골지역]이나 캐나다와 같은 [전문 분야 내에서 특별한 필요가 있을 경우] 임시 면허에 대한 비교적 쉬운 접근을 제공한다. 그러나 캐나다와 달리 IMG가 영구적인 시민이 될 것이라는 가정은 더 적다.69

The third category of our typology, where IMGs have to sit some sort of licensing exam when their qualifications are deemed incompatible with national regulations, face similar issues, but these systems are generally more versatile and amenable to adaptation and change. In Australia, IMGs are offered relatively easy access to temporary licenses within specialties in which they have particular needs, or like Canada, in rural areas facing acute doctor shortages. Unlike Canada, however, there is less of an assumption that the IMGs will become permanent citizens.69

여기서 더 넓은 점은, 고도로 발달된 국가에서, 국가 면허 시스템은 의사 부족과 전세계 의료 인력의 증가하는 이동성의 맥락을 고려하여 운영되어야 한다는 것이다.

The broader point here is that, in highly developed countries, national licensing systems have to operate within the context of doctor shortages and the increasing mobility of the global medical workforce.

국제적으로 NLE를 요약하면summarize 여러 국가의 문화적, 역사적 세부 사항을 무시할 위험이 있습니다. 북미와 같이 북미와 같은 관할권이 막대한enormity 국가의 경우, 주 및 연방 시스템이 의료 규정에 대한 접근 방식이 모두 반영된 해결책을 모색해 왔다.

Summarizing NLEs internationally does have the risk of ignoring the cultural and historical subtleties of different nations. Some nation states have sought solutions to the enormity of their jurisdiction such as in North America where the State and Federal systems have been mirrored in their approach to medical regulation.

이 연구의 또 다른 한계는 고도로 발전된 국가들의 관점에서만 이러한 문제들을 보는 것이다. 의료 교육을 충분히 받은 인력진에 대한 접근은 개발 도상국들과 개발 도상국들을 구별하는데 사용될 수 있는 요인들 중 하나이다.73 따라서 의료인력의 이동성 증가는 개발도상국에 중요한 영향을 미치며, 특히 "국제보건의 장애물"이라고 일컬어졌던 "두뇌 유출"이 특히 그러하다.

Another limitation of this study is that it views these issues solely from the perspective of highly developed countries. Access to a sufficient medically-trained workforce is one of the factors that can be used to distinguish developed from developing countries.73 Thus the increasing mobility of the medical workforce has important implications for the developing world, in particular the “brain drain” that occurs when doctors travel to work oversees,74,75 which has been described as an “obstacle to global health.”74


3. Sklar DP. What happens after medical school? Current controversies about licensure, maintenance of certification, and continuing professional development. Acad Med. 2016;91(1):1-3. doi:10.1097/ acm.0000000000001011 XXX

34. Archer J, Lynn N, Coombes L, et al. The impact of large scale licensing examinations in highly developed countries: a systematic review. BMC Med Educ. 2016;16(1):212. doi:10.1186/s12909-0160729-7

35. Boulet J, van Zanten M. Ensuring high-quality patient care: the role of accreditation, licensure, specialty certification and revalidation medicine. Med Educ. 2014;48(1):75-86. doi:10.1111/medu.12286

National licensing examinations (NLEs) are large-scale examinations usually taken by medical doctors close to the point of graduation from medical school. Where NLEs are used, success is usually required to obtain a license for full practice. Approaches to national licensing, and the evidence that supports their use, varies significantly across the globe. This paper aims to develop a typology of NLEs, based on candidacy, to explore the implications of different examination types for workforce planning.


systematic review of the published literature and medical licensing body websites, an electronic survey of all medical licensingbodies in highly developed nations, and a survey of medical regulators.


The evidence gleaned through this systematic review highlights four approaches to NLEs: where graduating medical students wishing to practice in their national jurisdiction must pass a national licensing exam before they are granted a license to practice; where all prospective doctors, whether from the national jurisdiction or international medical graduates, are required to pass a national licensing exam in order to practice within that jurisdiction; where international medical graduates are required to pass a licensing exam if their qualifications are not acknowledged to be comparable with those students from the national jurisdiction; and where there are no NLEs in operation. This typology facilitates comparison across systems and highlights the implications of different licensing systems for workforce planning.


The issue of national licensing cannot be viewed in isolation from workforce planning; future research on the efficacy of national licensing systems to drive up standards should be integrated with research on the implications of such systems for the mobility of doctors to cross borders.


Assessment; National Licensing Examinations; Regulation; Workforce Planning


평가의 긴장 관리: 이것 또는 저것의 사고방식을 넘어서(Med Educ, 2018)

Managing tensions in assessment: moving beyond either–or thinking

Marjan J B Govaerts,1 Cees P M van der Vleuten1 & Eric S Holmboe2



궁극적으로 보건 전문 교육 (HPE)의 목적은 학습자를 [전문직과 지역 사회가 받아 들일 수있는 능력 기준을 달성]했을뿐만 아니라 무엇보다 먼저 [수월성, 평생 학습, 자기 분야의 지속적 발전, 고품질 의료 서비스에 헌신할 수 있는] 자격을 갖춘 전문가로 전환시킴으로써 건강 시스템의 질을 향상시키는 것입니다. .1,2 다른 교육 시스템과 마찬가지로 HPE에서도 이러한 교육 목표를 달성하는 데 있어 평가는 그 토대가 된다.3

Ultimately, the purpose of health professions education (HPE) is to benefit the quality of health systems by transforming learners into qualified professionals who not only have achieved standards of competence that are acceptable to the profession and the community, but are first and foremost committed to excellence, lifelong learning and the ongoing advancement of the field and high-quality care.1,2 In HPE, as in any other education system, assessment is seen as fundamental to achieving these education goals.3

CBE의 틀 내에서 평가는 일반적으로 [전문 역량 개발을 촉진]하고 [학습자와 의사의 실습 적합성에 대한 강건한 의사 결정을 보장]하는 데 중점을 둡니다. 역량 기반 평가 시스템은 일반적으로 복잡한데, 왜냐하면 CBME에서의 평가는 평가 프로그램에 의존하고 있으며, [의료 시스템]뿐만 아니라 [고도로 복잡한 교육]에 embed되어있기 때문이다.

Within the framework of CBE, assessment typically focuses on fostering the development of professional competence and ensuring robust decision making about learners’ and physicians’ fitness for practice. Competence-based assessment systems are typically complex as they rely on programmes of assessment and must be embedded in highly complex education as well as health care systems.6,7

따라서 평가 시스템은 상당한 긴장tension속에 있게 되는데, 왜냐하면 이 시스템은 형성적 목적과 및 총괄적 목적을 달성해야 하고, 효율적이면서 효과적이어야하며, 학습자, 교육 기관, 환자 및 의료 기관의 요구를 충족시켜야 하기 때문이다. 이러한 상충하는 요구를 해결하기 위해서는 표준화되고 authentic한 평가시스템이 필요합니다. 이 평가 시스템은 통제와 동시에 신뢰를 가능케 해야하며, 고품질의 퍼포먼스를 보여줌과 동시에 학습을 가능하게 하면서 학습에 가치를 부여하는 문화를 육성해야 한다.

Assessment systems are thus bound to be rife with tensions as they must fulfil formative and summative assessment purposes, be efficient and effective, and meet the needs of learners, education institutes, patients and health care organisations. Addressing these competing demands requires systems that are standardised as well as authentic, that allow for control as well as trust, and that foster cultures that enable and value learning as well as high-quality performance. 

HPE를 개선하려는 압력이 커지면서 현대의 평가 프로그램에 내재 된 이러한 여러 극성polarities이 강조되고 있기 때문에, 그 결과로서 생기는 긴장은 [희소성 (비용 절감과 동시에 고품질 성능에 대한 요구 증가)][다양성(예 : 교육 개혁에서 '무엇'과 '어떻게'에 관한 여러 관점)]으로 인해서 더욱 두드러진다. 이러한 희소성과 다양성은 건강 전문가를 교육하고 평가하는 올바른 방법이 무엇인가에 대한 논의에서도 나타난다.

As increasing pressures to reform HPE accentuate these multiple polarities inherent in modern assessment programmes, the resulting tensions seem to become even more salient in times of scarcity (increasing demands for high- quality performance while reducing costs) and plurality (e.g. multiple perspectives on the ‘what’ and ‘how’ in education reform), as illustrated by ongoing debates about what is right about how to educate and assess health professionals.8,9

이러한 긴장에 대응하는 방식이 곧 평가 관행과 개혁의 운명을 결정하는 중요한 요소가 될 수 있습니다.

The way we respond to these tensions may very well be a fundamental determinant of the fate of assessment practices and reform.

조직 시스템의 긴장감에 대한 흔한 대응은 연구원들이 [완벽하고 내적으로 일관된 이론을 통해 다각적인 현실을 포착하려고하는] 소위 '우연성 접근법contingency approach'의 적용으로서, 실무자는 긴장을 '고쳐야 하고 고칠 수 있는 문제'로 바라본다.

A common response to tensions in organisational systems is the application of the so-called ‘contingency approach’ whereby researchers seek to capture a multifaceted reality with a perfect, internally consistent theory, and practitioners look upon tensions as ‘problems that need [to] and can be fixed’.14,15 

우연성 렌즈contingency lens를 통해 평가 시스템을 바라보게 되면, 평가에서 해결해야 하는 문제는 [하나의 정답에 동의 할 수 있다면] 해결되고 사라질 수있는 문제가됩니다. 그런 다음 우리는 일반적으로 어떤 조건에서 A와 B 중 어느 것을 선택해야하는지를 파악하기 'if-then'통찰력을 탐색하기 시작합니다.

Through the contingency lens, challenging tensions in assessment systems become problems that will be solved and disappear if we can agree upon the single right answer. We then typically start searching for ‘if–then’ insights, striving to identify under which conditions either A or B needs to be selected

이 접근 방식은 일반적으로 '이것 또는 저것' 방식의 토론을 통해 평가 설계 및 구현에 대한 합리적인 의사 결정을 가능하게합니다.

This approach typically results in ‘either–or’ discussions, enabling rational decision making about assessment design and implementation.

이러한 논의를 통해 제시되는 해결책은 일반적으로 이상적 평가를 성공적으로 수행하기 위해 또는 다른 사람들의 견해와 사고의 오류 가능성을 설명하기 위해 어떻게 장벽을 '극복'할 것인지에 대한 수단을 다루게 된다.

Proposed solutions then typically include measures to ‘overcome’ barriers to the successful implementation of the assessment ideal or to provide arguments to illustrate the fallibility of others’ views and thinking.

그러나 이러한 전통적인 '문제 해결'방식은, 다양한 긴장을 해결하는 데에는 부적절한데, 왜냐하면 일반적으로 조직의 양극성 및 복잡성을 지속가능하게 address하지 못하기 때문이다. 마찬가지로, HPE 공동체에서 지속적으로 반복되는 논쟁은 평가와 관련된 많은 긴장을 [해결할 수 있는 문제]로 보기보다는, [조심스럽게 관리되어야하는 polarities]로 봐야 한다고 제안한다. 이것이 Polarity ThinkingTM의 핵심 전제입니다.

It is increasingly recognised, however, that traditional ‘fix-the-problem’ approaches to coping with multiple tensions are generally inadequate as they fail to sustainably address the quantity and complexity of polarities in organisations. Likewise, the widespread ongoing and recurring debates in the HPE community suggest that many assessment tensions do not represent problems that can be resolved, but polarities that need to be carefully managed. This is the core premise of the Polarity ThinkingTM

문제를 '극성' 으로 재구조화하기


Polarity ThinkingTM의 기본 전제는 [긴장이란 복잡하고 역동적이며 모호한 시스템에서 인간의 행동에 내재되어 있기 때문에] 장기적인 성공과 지속적인 변화를 달성하기 위해 긴장을 수용해야 한다는 것이다.15,27-30이 관점을 뒷받침하는 핵심 원칙 박스 1에 요약되어있다.

The foundational premise of Polarity ThinkingTM is the view that tensions must be accepted in order to achieve long-term success and sustained transformation because they are inherent to human behaviours in complex, dynamic and ambiguous systems.15,27–30 Key principles underpinning this perspective are summarised in Box 1.

Box 1 Adapted from Johnson, and Wesorick and Shaha

기본 원칙

Basic polarity principles

1 극성은 서로 다른 값 또는 관점의 상호 의존적인 쌍 (소위 '극')입니다.

2 서로 다른 가치관이나 극은 더 높은 목표에 도달하기 위해 시간이 지나면서 서로를 필요로 한다. 비록 둘 사이에 긴장감이 있더라도 둘 중 하나만으로 목표를 성취할 수는 없습니다

3 양극은 긍정적 인 결과 또는 '장점'이 있다.

4 양극은 잠재적 인 '단점'을 가지고있다.

5 한 극을 무시하면 부정적인 결과가있을 것입니다

6 극성은 복잡계complex와 조직에 내재되어 있습니다. 극성은 해결해야 할 문제가 아닙니다. 양 극 사이의 긴장은 피할 수 없는 것이며, 따라서 레버리지되어야한다.

1 Polarities are interdependent pairs of different values or points of view (so-called ‘poles’)

2 The different values or poles need each other over time to reach the higher goal neither can achieve alone, even though there is tension between them

3 Both poles bring positive outcomes or an ‘upside’

4 Both poles have a potential ‘downside’

5 If one pole is neglected, there will be negative outcomes

6 Polarities are intrinsic to complex systems and organisations. Polarities are not problems to be solved; tensions between poles are unavoidable and must be leveraged

기본적으로 양극은 서로 반대되거나 경쟁하는 것처럼 보일 수 있지만, 사실 이 둘은 상호 의존적이며 목표를 달성하기 위해 서로를 필요로 하는 두 개 (또는 그 이상)의 값 또는 대안적 관점 ( '극poles')입니다. 각 극은 달성해야 하는 목표에 대해서 긍정적인 결과를 가져오지만, 한 극을 희생시키면서 다른 극을 강조하면 부정적인 결과가 발생합니다. 조직 체계에서, 서로 다른 상호 관계를 가지는 극의 공존은 일반적으로 '긴장'으로 경험된다.

Basically, polarities are two (or more) values or alternative views (called ‘poles’) that may appear as opposite or competitive but are interdependent and need each other to achieve a goal neither can reach alone.28 Each of the poles brings positive outcomes to the overarching goals to be achieved, whereas emphasising one pole at the expense of the other will result in negative outcomes. In organisational systems, the coexistence of these different yet interrelated poles is commonly experienced as ‘tension’. 

Polarity ThinkingTM은 이러한 긴장이나 딜레마를 관리 할 때 'if-then'이나 'either-or'사고 방식이 아닌 'both-and' 사고 방식을 필요로합니다. 평가 시스템 내에서 학습을위한 평가 (형성)와 학습의 평가 (총괄)는 극성의 전형적인 예입니다

Polarity ThinkingTM entails a ‘both–and’ mindset rather than ‘if–then’ thinking or ‘either–or’ solutions in managing these tensions or dilemmas. Within assessment systems, assessment for learning (formative) and assessment of learning (summative) are typical examples of polarities

양질의 환자 치료를 위한 강건한 판단과 높은 수준의 학습 보장이라는 궁극적 인 목표를 모두 달성하려면 두 가지가 모두 필요합니다. 평가에서, 총괄평가가 없는 형성평가는 존재할 수 없다 :

We need both, however, to achieve our ultimate goals of ensuring robust judgements and high-quality learning for high-quality patient care. In assessment, there can be no formative assessment without summative assessment:

총괄평가는 암묵적으로든 명시적으로든 형성평가에 항상 포함된다. 마찬가지로 형성평가 없이는 학습의 타당하고 공정한 (총괄)평가가 불가능하다고 주장 할 것이다.

Summative assessment is thus always embedded in formative assessment, either implicitly or explicitly.31 Likewise, people will argue that valid, fair assessment of learning is not possible without ongoing formative assessment.

양극화 (또는 역설) 문제를 재구성하는 것은 조직 과학에서 상당히 잘 정립되어 있습니다

Reframing problems as polarities (or paradoxes) is fairly well established in organisation science

보다 최근에는 Polarity ThinkingTM 모델이 헬스케어개혁을 최적화하기 위해 성공적으로 도입되었는데, 이는 전통적인 변화 노력이 원하는 결과의 지속 가능한 성취로 이어지지 않았기 때문입니다 .30,35

More recently, Polarity ThinkingTM models have been successfully introduced to optimise health care reform, as traditional change efforts did not result in the sustainable achievement of desired outcomes.30,35

평가에서 극성과 긴장: 분류와 논쟁


평가 시스템의 많은 긴장은 핵심 요소들 간의 복잡한 상호 관계 및 상호 작용을 반영하는 것으로 보이며, 많은 경우 책무성과 비용 효율성에 대한 압력 증가로 인해 발생한다.

many tensions in assessment systems seem to reflect the complex interrelationships and interactions among these core elements, not infrequently driven by increasing pressures for accountability and cost-effectiveness. 

수십 년 동안 학습을위한 강력한 동인으로서의 형성 평가의 중요성이 인정되었습니다 .17,36-38 피드백, 학습 과정 및 평가에의 학생 참여를 강조하면서, 학생 및 연수생을 효율적 학습자, 평생 학습자로 발전시키는 것을 목표로합니다 .

For many decades, the significance of formative assessment as a powerful driver for learning has been acknowledged.17,36–38 With its emphasis on feedback, learning processes and student engagement in assessment, it aims to develop students and trainees into efficient, lifelong learners.

(CBME에서는) 개개인에 맞는 학습 궤적이 등장하면서 유연한 커리큘럼과 작업 프로세스의 재구성이 발생하게 되는데, 이로 인해 학교 및 보건 의료 기관의 (부족한) 재정적, 물질적, 관리적 자원뿐만 아니라 퀄리티에까지 영향을 미치는 경우가 발생하게 되고, 이것이 AFL과 연관된 긴장이 salient해지는 상황이다. 교육과 헬스케어가 서로 얽혀있는 시스템에서 [안정된 근무 절차를 유지]하면서 동시에 [유연하고 역동적인 학습을 창출]하고 [효율성과 효과성]이라는 목표가 서로 상충할 때 평가 전략에 관한 갈등('긴장')과 모호성이 발생할 수 있습니다.

Assessment for learning tensions may become salient if the emergence of individual learning trajectories involves flexible curricula and the reorganisation of work processes, impacting not only on the (scarce) financial, material and administrative resources of schools and health care institutions, but also on the quality of patient care.39–41 The need to create flexible and dynamic learning while maintaining stable working routines in the interwoven systems of education and health care and competing goals of efficiency and effectiveness may then create conflict (‘strain’) and ambiguity regarding assessment strategies. 

학습의 평가AOL는 오랫동안 평가 내용과 접근법을 거의 독점하고 있었다. 최근까지도 총괄평가의 맥락에서 책무성, 공정성, 동등성의 문제가 HPE의 평가 개발 및 연구를 지배해오고 있다. AOL과 관련된 긴장은 양질의 진료를 보장하기 위해 무엇을 평가할 필요가 있는지를 정의함에 있어서 이해 관계자의 관점이 다양하다는 것에서 비롯 될 수 있습니다.

Assessment of learning has for long been the almost exclusive focus of assessment content and approaches; issues of accountability, fairness and equivalence in the context of summative assessment have dominated assessment development and research in HPE until very recently. Tensions within assessment of learning may stem from the plurality of stakeholders’ views on how to define what needs to be assessed in order to ensure high-quality care.

마찬가지로 비록 환자 치료의 복잡성을 보면, 팀워크와 조직 성과가 환자 성과에 크게 기여하지만, 동시에 의료에서는 개개인의 능력도 일정 수준 이상으로 보장해야하기 때문에 개인과 집단 간의 긴장을 유발할 수있다 .45,46 마찬가지로 CBE에서 평가를 개혁하다보면, [비용 효율성('의료행위에 대한 적합성'- '충분 함')과 수월성] 그리고 [역량에 대한 전체론적 접근과 분석적 접근] 사이에서도 긴장이 발생할 수 있다.

The complexity of patient care may drive tensions between the individual and the collective because individual competence needs to be assured although teamwork and organisation performance largely contribute to patient outcomes.45,46 Similarly, efforts to reform assessment in CBE may drive tensions between cost- effectiveness (focus on ‘fitness for practice’ – being ‘good enough’) and excellence47,48 and/or between holistic and analytic approaches to competence.

예를 들어 '전문 역량은 개별 역량을 입증하는 것 이상이며, (지역 사회의 건강요구를 충족시키기 위해서는) 전문 역량은 지식, 기술, 규범, 가치, 판단, 추론으로 분리 할 수없고, 통합적으로 정의되어야 함'은 널리 인정되고 있음에도, 전문 역량 개발은 별도의 역량 또는 역량 영역에 대한 기술 및 평가를 요구할 수있다.

Although it is widely acknowledged, for example, that ‘professional competence is more than a demonstration of isolated competencies’ and that professional competence is to be defined as the inseparable and integrated use of knowledge, skills, norms, values, judgement and reasoning to serve the health care needs of the community,49 the development of professional competence may require the description and evaluation of separate competencies or competency domains

평가 설계(구조화 및 조직화)에서도 긴장이 발생할 수 있는데, 원하는 결과 달성이 서로 상충하면서 공존하는 프로세스와 시스템을 필요로 할 경우에 그러하다.

Tensions when designing (structuring and organising) assessment will surface if the achievement of the desired outcome requires different competing, yet coexisting processes and systems.

일반적인 긴장은 [표준화와 authenticity] 사이에서, 또는 [(외부) 통제 (예 : 규제 기관)와 로컬 평가 전문성에 대한 신뢰] 사이에서 평가 결정의 중요한 자원으로 작용합니다. 내부 및 외부 이해 관계자들의 경쟁 요구는 [동등성 (예 : 국가 면허 시험 실시)과 의대 또는 직장 커리큘럼] 간의 긴장을 야기 할 수 있습니다.

Common tensions operate between standardisation and authenticity, or between (external) control (e.g. regulatory bodies) and trust in local assessment expertise as a critical resource in assessment decisions. Competing demands of internal and external stakeholders may raise tensions between equivalency (such as through the implementation of national licensing tests) and alignment with the medical school’s or workplace curriculum. 

이로 인해서 심각한 딜레마가 발생할 수 있는데, 책무성에 대한 평가의 질을 보장하려는 [하향식, 처방식 (국가적) 강제사항이나 시험]과 같은 노력이 [프로그램 자율성과 전문적 integrity]의 훼손을 의미하는 것으로 해석되는 반면, 그것에 따르지 않을 경우 [프로그램 인증을 잃는 결과]를 초래할 수있는 상황에서 발생할 수 있습니다 52.53

Serious dilemmas may then arise in contexts in which efforts to ensure quality of assessment for accountability through top-down, prescriptive (national) mandates or tests are interpreted to signify loss of programme autonomy and professional integrity, whereas non-compliance may result in the loss of programme accreditation.52,53

AFL과 AOL 사이의 긴장은 [정성적 대 정량적 평가 접근법에 관한 논쟁], [주관적 대 객관성]의 역할, 평가 설계에 대한 [심리측정 대 교육측정]의 접근 등에서 발생할 수 있다.

tensions between assessment for and of learning surface in debates around qualitative versus quantitative assessment approaches,26 the role of ‘objectification’ (objectivity) versus subjectivity54,55 and a psychometric versus ‘edumetric’ or educational approach to assessment design.56

특히 책무성과 비용 효율성의 요구 사항은 등급화 및 표준화 된 평가를 선호하는 객관화 된 양적 평가를 더 유도할 수 있다.

The requirements of accountability and cost-effectiveness in particular may push towards objectified quantitative assessment outcomes, favouring grades and standardised assessments.

결과적으로, 긴장은 서로 다른 모호하고 때로는 상충되는 평가 전략을 통해서도 나타날 수 있습니다.

  • 본질적으로 표준화되지 않은 평가 (예 : 진정한 평가를위한 표준화 된 서술)를 표준화하려는 것, 57,58

  • 세부 평가 척도 및 작업 별 체크리스트의 사용을 통한 performance-in-context의 '측정'

  • EPA와 Milestones을 통한 역량 개발의 '대상화' 및 역량 개발 

As a consequence, tensions may surface through differing, ambiguous and sometimes conflicting assessment strategies such as 

  • the ‘standardisation’ of inherently unstandardised assessments (e.g. standardised narratives for authentic assessments),57,58 

  • ‘measurement’ of performance-in-context through the use of detailed rating scales and task-specific checklists,59,60 or 

  • the ‘objectification’ of competence and competence development through the use of entrustable professional activities and milestones.61,62

또한 교육적 책무성은 '시간제어 기능'을 동반할 수 있는데, 왜냐하면 평가는 (암시 적으로 또는 명시 적으로) 학습의 속도를 높이기 위해 사용되기도 하기 때문이다. 빈번한 평가는 개별 진행 상황과 학습 과정의 효율을 제어하는 ​​'초시계'가됩니다.

In addition, education accountability may entail a ‘timekeeping function’ of assessment as assessment may (implicitly or explicitly) serve to increase the rate of learning: frequent assessments become ‘stopwatches’, controlling individual progress and the efficiency of learning processes.63

평가 설계와 AFL 간의 긴장은 [의미있는 피드백을 기반으로 한 개별화 된 학습을 가능하게 하려는 필요성]과 [효율성 및 책임 성을 찾아 구조화 및 표준화하려는 욕구] 사이의 갈등을 동등하게 반영 할 수 있습니다.

Tensions between assessment design and assessment for learning may equally reflect conflicts between the need to enable individualised learning on the basis of meaningful feedback and the desire to structure and standardise in search of efficiency and accountability.

이 점에서 숫자 (성적) 대 단어 (내러티브)의 사용에 대한 토론이 실례 일 수 있습니다. 일반적으로 성적은 가장 정보가 부족한 피드백 유형으로 간주되는 반면, 피드백은 단어 사용을 통해 전달되는 것이 고품질로 여겨집니다. 그러나 비록 퍼포먼스 개선을 위한 피드백에서 질적 서술의 역할은 명백하지만, 연구 결과에 따르면 평가의 표준화와 능력 향상을 반영하는 성적점수를 제공하는 것도 학습자의 자기 효능감 및 역량 감각을 향상시킬 수 있으며, 여기에는 공정성과 동등성에 대한 학생의 인식도 포함한다. 20,24,70,71

Discussions about the use of numbers (grades) versus words (narratives) may be illustrative in this respect. In general, grades are considered to be the poorest form of feedback, whereas high-quality feedback is believed to be conveyed through the use of words. However, although the role of quality narratives in feedback for performance improvement is undisputed, research findings show that the standardisation of assessment and provision of grades that reflect progress towards competence may enhance learners’ sense of self-efficacy and competence, as well as perceptions of fairness and equivalence with respect to levels of competence upon graduation.20,24,70,71

숫자 역시 학습자와 학습자의 진도에 대한 개별화 된 프로파일로 매우 효율적으로 모여서 자기 평가를 지원하고, 변화를 위한 성찰과 행동을 자극 할 수 있습니다 .72 Tekian et al. "적절한 상황에서 숫자는 수천 장의 그림보다 더 의미가있을 수있다."라고 말했따라서 다양한 이해 관계자는 수치 평가 데이터를 제공하는 것이 수월성의 문화를 유지하는 데 필수적이라고 인식할 수 있습니다수치 데이터는 학습자에 대해서 효율적이고 심리측정학적으로 타당하게 순위를 정할 수 있게하며, 고도로 경쟁이 치열한 환경에서 '객관적으로' 수월성을 보여줄 수 있고, 이해 관계자들로 하여금 나중에 defensibly 입학 결정에 대해 '최고 성능'개인을 선택할 수 있습니다.

Numbers can be very efficiently aggregated into individualised profiles of learners and learners’ progress, supporting self-assessment and inciting reflection and action for change.72 As Tekian et al. state: ‘Under appropriate circumstances, numbers can be more meaningful than a thousand pictures.’72 Various stakeholders may thus perceive the provision of numerical assessment data to be essential in maintaining a culture of excellence: numerical data enable the efficient and psychometrically sound ranking of learners, allowing learners to ‘objectively’ demonstrate excellence in a highly competitive environment and allowing stakeholders to defensibly select the ‘best-performing’ individuals for later admissions decisions.

건강 관리 및 건강 관리 시스템은 분명히 complex context이다. 분명히 고품질의 효율적인 환자 진료와 고품질의 효율적인 교수 및 학습 제공에있어 상충하는 목표 사이의 긴장은 제한된 자원과 책임에 대한 압박의 조건 하에서 더욱 두드러 질 것입니다.

Clearly, health care and health care systems represent complex contexts . Obviously, the tensions of competing goals in the delivery of high-quality, efficient patient care, as well as high-quality, efficient teaching and learning, are likely to become more salient under conditions of limited resources and increasing pressures for accountability.73 

보건 의료 환경에서, 전공의가 학습자이면서 보건 의료 제공자가 되고, 의사는 건강 관리 제공자, 코치, 평가자의 여러 역할을 수행해야 할 경우 학습과 수행 사이의 긴장이 발생할 수 있습니다. 직장 환경에서 연수생은 직업을 통해 배우며 학습의 평가는 필연적으로 작업의 질에 대한 판단과 관련됩니다. 따라서 비판적 피드백은 학습자에게 불편함을 갖게 만들 수 있다 .74 마찬가지로 평가자는 헤징 (hedging)과 같은 언어 전략을 사용함으로써, trainee에게 건설적인 피드백을 제공하면서도 원활한 사회적인 상호 작용과 관계를 유지하고자 하는데, 이것은 supervisor가 내부 (학습자쪽으로)와 외부 (기관 및 대중에 대한)에 대한 책무성 사이의 상충과 긴장을 드러낸다.

In health care settings, learning–performance tensions may surface if an individual is required to fulfil the multiple roles of learner as well as health care provider (trainees), or health care provider, coach and assessor (clinicians). In workplace settings, trainees learn through and for work, and assessment of their learning inevitably involves judgement of the quality of their work. Critical feedback can thus feel uncomfortable to learners.74 Similarly, assessors’ use of linguistic strategies, such as hedging, in attempts to maintain smooth social interactions and working relationships with their trainees while providing constructive feedback may reflect supervisors’ competing goals and conflicts between internal (towards learners) and external (towards institutions and the public) accountability.75,76

교육 기관 수준에서, management 측에서는 직업의 문지기 역할을 하는 교사의 역할을지지 할지라도, 학생의 retention과 교육 기관이나 훈련 프로그램의 관련 자금에 대한 우려가 있음을 직원에게 알리곤 한다.77 또한 일부 조직 (HPE 및 건강 관리 환경 포함)에서 trainee의 rating이 낮거나 평균 이하인 것은 (비록 그것이 정확한 평가일지라도) 받아들일 수 없는 것이고, 암묵적인 조직의 규범 및 적합성에 대한 압력이 임상 환경에서 rating을 부풀리기에 중요한 요소가 될 수 있다 79

At the level of the education institution, although management may support the role of teachers as the profession’s gatekeepers, it may at the same time tell staff that there is concern about the retention of students and the related funding of the institution or training programme.77 In addition, low or below average ratings are considered unacceptable in some organisations (including in HPE and health care settings) even if they are accurate, and implicit organisational norms and pressures for conformity may be a significant factor in inflating ratings in clinical settings.78,79

문화적 맥락과 평가 간의 상호 작용은 현재의 의료 문화의 핵심 가치인 [자율과 독립] 대 [일상적인 직접 관찰과 피드백을 근본적으로 소중히 여기는 학습 문화] 사이의 갈등을 유발할 수 있다 .73,74,80

Interactions between the cultural context and assessment may also spur conflicts between autonomy and independence – core values in the current culture of medicine – and a learning culture that fundamentally values routine direct observation and feedback seeking.73,74,80

[성과(보기 좋음)와 학습(실패를 인정하고 약점을 보이기를 기꺼이하는) 사이의 갈등]은 학습자가 개발 및 전문성을 육성하기위한 신뢰 관계, 상호 의존성 및 협력에 관여해야 할 필요성 사이에서 고심하게 만들수 있으며, 이 때 학습자는 경쟁이 치열한 레지던트 훈련 프로그램이나 최상위 병원 및 의료 기관에 자리를 잡기 위해 다른 사람들보다 우위를 점해야 한다.81,82

Tensions between performance (looking good) and learning (being willing to show weaknesses, to admit and learn from failure) may additionally result in learners grappling with the need to engage in trustful relationships, interdependence and collaboration to foster development and expertise, while being competitive and seeking to outperform others in the battle for placements in residency training programmes or top-tier hospitals and health care organisations.81,82

프로그램 방식 평가 접근법에서, [빈번한 저부담 성과 평가와 피드백을 통한 발달적 평가]는 [이 평가자료를 활용하여 강력한 의사 결정을 보장하려는 총괄적 사용]과 충돌한다. 학습자와 교사는 mixed 메시지를 경험할 때 심리적 안전과 책임감 사이의 긴장에 직면 할 수 있습니다. 결과적으로, 학습자와 교사는 저부담 평가를 고부담 평가로 인식하여 학습과 학습 전략에 부정적 영향을 주게 된다.69,83 85

In programmatic assessment approaches, enhancing developmental assessment functions through frequent low-stakes performance evaluation and feedback conflicts with the summative use of these assessment data to ensure robust decision making. Learners, as well as teachers, may then face tensions between psychological safety and accountability when experiencing mixed messages . As a result, learners and teachers may perceive low- stakes assessments as high stakes, which impacts negatively on learning and learning strategies.69,83 85

조직 수준에서도 유사한 긴장이 발생할 수있다. [효율적이고 자기 통제적인 평생 학습의 강화]가 교육 개혁의 최우선 과제이지만, 책무성 압력은 ​​교육 기관이 [선발, 규율, 통제의 목적을 위한 평가]에 집중하게 만든다.

Similar tensions may occur at organisational levels: while the enhancement of efficient, self- regulated lifelong learning is a pressing priority in education reform, accountability pressures may result in education institutions focusing on assessment for the purposes of selection, discipline and control.

극성 사고: 평가에 적용


책무성 및 비용 효과에 대한 압력 증가로 인한 긴장감이 발생한다.

increasing pressures for accountability and cost-effectiveness drive tensions

이러한 긴장감은 상충하거나 상반되는 목표, 신념, 가치 사이에서의 복잡한 상호 작용으로 인해 발생하며, 각각은 평가 현실에 대한 동등하게 타당한 견해를 나타냅니다.

tensions arise from the complex interplay among competing or conflicting goals, beliefs and values, each of which represent equally valid alternative views of assessment reality.

복잡한 평가 시스템에서 단순한 'ifs'를 찾는 것은 어려울 수 있기 때문에, 단순한 'either-or' 해결책 또는 'if-then' 전략을 통해 핵심 딜레마를 관리하려는 시도는 효과는 제한적일 수 있습니다 (또는 실패 할 수도 있습니다). 오히려 평가 및 평가 개혁에서 많은 만성적인 문제는 시간이 지남에 따라 필요한 모든 극과 극성 간의 긴장을 반영하며, 지속 가능하고 긍정적 인 성과를 달성하기 위해 관리되어야합니다.

Attempts to manage key dilemmas through simple ‘either–or’ solutions or ‘if–then’ strategies are likely to have limited effectiveness (or might even fail), purely because simple ‘ifs’ may be hard to find in complex assessment systems. Rather, the many chronic issues in assessment and assessment reform reflect multiple tensions between poles and polarities that are all necessary over time and should be managed to achieve sustainable and positive outcomes.

Polarity ThinkingTM 모델을 사용하여 극성을 관리하는 데는보고, 매핑 및 탭핑 / 레버리지 세 가지 필수 단계가 필요합니다.

Use of the Polarity ThinkingTM model to manage polarities involves three essential steps – seeing, mapping and tapping/leveraging

Polarity ThinkingTM을 사용하려면 프로세스에 모든 주요 이해 관계자의 참여가 필요합니다 .28-30

Use of the Polarity ThinkingTM requires the engagement of all key stakeholders in the process.28–30

첫 번째 단계(seeing)는 극성이 있다는 것을 알고 받아들이며, 극성을 식별하고 작동 방식을 이해하는 것입니다. 주요 극성은 평가 문헌을 검토하고 (예 : 본 백서에 제시된 바와 같이) 일상적인 평가 관행에서 직면하는 어려움과 딜레마에 대해 이해 관계자와의 대화를 통해 파악할 수 있습니다.

The first step (seeing)is to know and accept that there are polarities, and to identify them and understand how they work. Key polarities can be identified by reviewing the assessment literature (e.g. as presented in this paper) and by holding conversations with stakeholders about the challenges and dilemmas they face in day-to-day assessment practice.

다음 단계 (매핑)는 각기 다른 가치 또는 관점 (즉, 극)에 딜레마의 근본적인 이름을 부여하고 협업을 통한 대화를 통해 각 pole과 관련된 긍정적인 (위쪽) 결과와 부정적인 (아래쪽) 결과를 식별하는 것입니다. 이를 통해 이해 관계자는 다양한 관점과 전체적으로 딜레마를 탐색 할 수 있습니다.

The next step (mapping)is to give a name to the different values or points of view (i.e. poles) underlying a dilemma and, through collaborative conversation, to identify the positive (upside) and negative (downside) outcomes associated with each of the poles. This will encourage stakeholders to explore the dilemma from multiple perspectives and as a whole.

3 단계 (두드림 / 레버리지)에는 이해 관계자들이 각 극의 단점을 피하면서 두 극의 힘을 최대화하기 위해 채택해야하는 전략이나 행동에 대한 토론을 포함합니다. 동시에 각 극마다 조기 경고 신호가 식별되어 하나의 극점이 다른 극점의 무시에 지나치게 초점을 맞추고 있음을 나타낼 수 있습니다.

Step 3 (tapping/leveraging) involves engaging stakeholders in discussions about strategies or actions that need to be adopted to maximise the upsides of both poles while avoiding the downsides of each pole. At the same time, for each of the poles, early warning signs can be identified to indicate that one pole is being overly focused on to the neglect of the other.

그림 2는 공통 평가 극성에 대한 극성지도의 가상의 예를 나타냅니다. 표준화와 진정성 사이의 딜레마입니다.

Figure 2 presents a (fictitious) example of a Polarity   Map for a common assessment polarity: the dilemma between standardisation and authenticity.

이 그림은 한 극이 집중되고 다른 한 편이 무시 된 경우 (사분면) 양성 결과의 상실과 각 극의 잠재적 한계를 보여줍니다 (낮은 사분면).

The figure also shows the potential limitations of each pole (lower quadrants) and the loss of positive outcomes when one pole is focused on and the other neglected (diagonal quadrants).

그림 3의지도는 양적 (숫자) 평가 방법과 질적 (단어) 평가 방법 간의 극성을 관리 할 수있는 방법의 예를 제공합니다.

The map in Fig. 3 is filled in to provide an example of how the polarity between quantitative (numbers) and qualitative (words) assessment approaches can be managed.

극성지도는 반드시 포괄적 인 것은 아니며 오히려 편향 요소 (즉, 편익)와 단점 (즉, 잠재적 인 해악)을 포함하여 각 극의 가장 영향력있는 핵심 요소에 초점을 둡니다.

Polarity maps are not necessarily comprehensive, but, rather, focus on the key, most impactful elements of each pole, including both the upsides (i.e. benefits) and downsides (i.e. potential harms).



교육 및 보건 의료 조직의 복잡성과 변화가 계속 커지면서 양 극성과 긴장 상태가 나타날 가능성이 큽니다.

Assessment polarities and tensions are likely to surface with the continued rise of complexity and change in education and health care organisations.

우리는 Polarity Thinking의 렌즈를 통해 평가의 모든 문제를 검토하는 척하지 않습니다. 그것의 "양자 및"접근법은 연구원들이 존재하는 긴장감, 논쟁과 평가 개혁을 촉발하는 방법, 그리고 바람직한 결과를 얻기 위해 배우들이 이러한 긴장을 어떻게 탐색 하는지를 도울 수 있습니다.

We do not want to pretend that all problems in assessment are to be viewed through the lens of Polarity Thinking. Its ‘both–and’ approach may help researchers to clarify the tensions that exist, how they fuel debates and assessment reform, and how actors navigate these tensions to achieve desirable outcomes.

In health professions education, assessment systems are bound to be rife with tensions as they must fulfil formative and summative assessment purposes, be efficient and effective, and meet the needs of learners and education institutes, as well as those of patients and health care organisations. The way we respond to these tensions determines the fate of assessment practices and reform. In this study, we argue that traditional 'fix-the-problem' approaches (i.e. either-or solutions) are generally inadequate and that we need alternative strategies to help us further understand, accept and actually engage with the multiple recurring tensions in assessmentprogrammes.


Drawing from research in organisation science and health care, we outline how the Polarity Thinking™ model and its 'both-and' approach offer ways to systematically leverage assessment tensions as opportunities to drive improvement, rather than as intractable problems. In reviewing the assessment literature, we highlight and discuss exemplars of specific assessment polarities and tensions in educational settings. Using key concepts and principles of the Polarity Thinking™ model, and two examples of common tensions in assessment design, we describe how the model can be applied in a stepwise approach to the management of key polarities in assessment.


Assessment polarities and tensions are likely to surface with the continued rise of complexity and change in education and health care organisations. With increasing pressures of accountability in times of stretched resources, assessment tensions and dilemmas will become more pronounced. We propose to add to our repertoire of strategies for managing key dilemmas in education and assessmentdesign through the adoption of the polarity framework. Its 'both-and' approach may advance our efforts to transform assessment systems to meet complex 21st century education, health and health care needs.


평가에 관한 학생의 관점: 역량바탕 포트폴리오 시스템의 경험(Med Teach, 2012)

Student perspectives on assessment: Experience in a competency-based portfolio system


Case Western Reserve University, USA



평가 문헌에서 학습자의 목소리는 거의 들리지 않는다(Cilliers et al. 2010).

The voice of the learner is remarkably silent in the assessment literature (Cilliers et al. 2010).

학습자의 주관적인 경험과 평가에 대한 인식은 피드백 수용과 사용에 영향을 미친다.

the learner’s subjective experiences and perceptions of assessment have implications for the acceptance and use of feedback.

평가 프로그램을 설계하고 평가할 때 학습자의 인식이 중요합니다 (van der Vleuten 등, 2012).

when designing and evaluating a program of assessment, learner perceptions are critical to take into consideration (van der Vleuten et al. 2012).

이 연구는 Cleveland Clinic Lerner College of Medicine (CCLCM) 자기 규제 및 반사 실습의 습관을 촉진하기 위해 고안된 역량 기반 평가 시스템에서 4 명의 학습자의 목소리를 들려준다 (Dannefer & Henson 2007, Fishleder 외 2007).

This article gives voice to four learners in Cleveland Clinic Lerner College of Medicine’s (CCLCM) competency-based assessment system which was designed to promote habits of self-regulation and reflective practice (Dannefer & Henson 2007; Fishleder et al. 2007).

모든 평가는 형성적이며, 다양한 출처와 맥락으로부터 수집된다.

All assessments are formative and collected from a range of sources and contexts.

숙련 된 의사 지도교수는 각 학생에게 평가 과정에서 코치 역할을하도록 배정됩니다.

A trained physician advisor is assigned to each student to serve as coach in the assessment process.

정기적으로, 학생들은 [자기 능력을 스스로 평가하는 에세이]와 [판단을 뒷받침하기 위해서 스스로 선정한 평가 증거]로 구성된 형성 포트폴리오를 구성합니다.

Periodically, students construct formative portfolios composed of essays self-assessing their performance in the competencies and self-selected assessment evidence to support their judgments.

매년 말에 학생들은 성취 수준이 내년으로 진급하기에 충분한 지 여부를 결정하기 위해 진급사정위원회에서 검토될 총괄 포트폴리오를 구성합니다.

At the end of each year, students construct summative portfolios that are reviewed by a promotion committee to determine whether or not the level of achievement is sufficient for promotion to the next year.

학생 경험

Student experience

보조바퀴: 포트폴리오 시스템 소개

Training wheels: introduction to the portfolio system

학생들은 역량 기반 평가 시스템으로 전환 할 때 겪는 불확실성을 자세히 설명합니다.

Students detail uncertainty upon transitioning into a competency-based assessment system.

Student 1. 나는 항상 훌륭한 시험 응시자였으며, 저의 교육 경력 전반에 걸쳐 좋은 성적을 얻으려고 저를 잘 지원해주었습니다. 물론 나는 여전히 배우는 것을 좋아하지만, 나 자신에게 증명하는 과정에 대해서도 높이 평가했습니다. 그래서 제가 포트폴리오 평가 시스템 하에서 의대를 시작한 것은 어느 정도 마지 못해합니다. 분명히, 의대는 내가 만난 최고 수준의 지적 엄격함이었고, 나는 스스로를 증명할 준비가되어있었습니다. 그러나 나는 걱정했다. 시험을 치르고 내가 익숙했던 것처럼 성적을 얻는 대신. 개선방법을 찾기 위해 피드백을 성찰해야 했다.

Student 1. I have always been a pretty good test-taker, and that served me well to get good grades throughout my educational career. Of course I still loved learning, but I also appreciated the process of proving it to myself. So it was with a certain degree of reluctance that I began medical school under the portfolio evaluation system. Surely, medical school was the highest level of intellectual rigor I had encountered, and I was ready to prove myself. But I was worried; instead of taking a test and getting a grade like I was used to, I was supposed to reflect on feedback in order to find ways to improve.

소그룹에서 처음 몇 주간, 나는 내가 어떻게해야하는지 알았다. 내가 얼마나 알고 있는지 보여 준다. 그 첫 주 동안 나는 성공하기도 했고 실패하기도 했다. 나는 지식을 전달하는 데 성공했지만, 요점으로 들어가지 못했다. 내 지식 수준에 대한 피드백은 압도적으로 긍정적 이었지만 의사 소통에서 전문성에 이르기까지 필요한 많은 다른 역량을 향상시킬 여지가있었습니다. 이것은 완전히 새로운 경기였습니다.

My first few weeks in those small groups, I did what I knew how to do: show how much I know. I both succeeded and I failed in those first weeks. I succeeded in relaying my knowledge, but failed at getting the point. Feedback for my knowledge level was overwhelmingly positive, but it quickly became clear I had room to improve in many other required competencies, from communication to professionalism. This was a new ballgame.

타는 법 배우기: 시스템을 받아들이고 활용하기

Learning to ride: acceptance and use of the system

학생들은 시스템을 받아들이기를 배우는 과정과 피드백을 최대한 활용하는 과정을 설명한다

Students detail the process of learning to accept and best utilize feedback.

학생 1. 포트폴리오 시스템의 설계와 마찬가지로 필자는 피드백을 향상시키기 위해 특정 계획을 개선하기위한 영역을 타겟팅하기 시작했습니다. 나는 조금 더 듣고 조금 덜 중단했다. 프레젠테이션을보다 명확하고 간결하게 만드는 새로운 방법을 사용했습니다. 나는 말을 기억하는 것만 큼 간단하거나 조용히 유지하는 것처럼 더 잘 의사 소통을했습니다. 보라, 그룹의 역동적 인 모습이 보였다.

Student 1. As was the design of the portfolio system, I started targeting areas to improve upon with specific plans, even if just for the sake of improving my feedback. I listened a little more and interrupted a little less. I used new methods to make my presentations clearer and more succinct. I communicated better, even if it was as simple as remembering to speak up, or to keep quiet. Lo and behold, the group dynamic improved.

이러한 작은 개선점은 계속되었지만 총괄 포트폴리오를 위해 모든 것을 조합해야 할 때, 나는 더 큰 규모로 그것을 성찰하는 나 자신을 발견했습니다. 어떤 유형의 의사와 사람이 되려고 노력하겠습니까? 의견에 대한 나의 태도는 비판에서 건설적으로 바뀌었다. 이 시스템은 필자가 다르게 다루어지지는 않았을 의사가되는 많은 측면에서 향상시키기 위해 나를 위해 일하는 것처럼 보였다. USMLE가 다가올 때 우리 학생들의 집단적 불안에 대한 불안감이 커졌다... 그러나 모두가 뛰어나게 잘 했음을 알게 되니 의심의 여지가 거의 사라져 버렸습니다. 조금이라도, 그들의 지식이 나중에 폭이 넓거나 깊이가 없다고 믿었습니다.

These small improvements continued, but when forced to put it all together for a summative portfolio, I found myself reflecting upon it on a larger scale. What type of doctor and person I would strive to become? My attitude on feedback shifted from the criticism to the constructive. The system seemed to be working for me to improve on many aspects of becoming a doctor that would not necessarily have been addressed otherwise. Even when students’ collective insecurities regarding our knowledge swelled as the USMLE approached,... the doubts were washed away when most still did remarkably well. Few, if any, believed their knowledge to be lacking in breadth or depth afterwards.

보조바퀴 떼기: 자기-동기부여적 접근으로 나아가기

Removing the training wheels: transition to a selfmotivated approach

구조화된 평가시스템에 의존하는 것에서 스스로 자신의 학습에 책임을 지는 형태로 전환됨을 ㅁ

Students describe their transition from reliance on a structured assessment system to personal accountability in their education.

학생 1. 그 이후로, 나는 포트폴리오 시스템을 받아들이는데 편안했다. 사실 나는 더 이상 나 자신에게 prove하는 것이 아니었다. 나는 나를 improve하고 있었다. 임상실습을 거치며, 나는 나의 교육에 대한 나의 모든 접근 방식이 바뀌 었다는 것을 발견했다. 나는 적극적으로 피드백을 찾고 시스템에서 자극(prompt)받지 않고도 행동했습니다. 이 접근 방식은 저의 주위에있는 모든 사람들에게 잘 받아 들여졌으며 압도적으로 긍정적 인 상호 작용을 가져 왔습니다. 

Student 1. From there on, I felt free to embrace the portfolio system. The truth was I was no longer proving things to myself. I was simply improving myself. As I moved through my clinical years, I found my entire approach to my education had changed. I was even actively seeking feedback and acting on it without prompt from the system. This approach in itself was received well by all those around me and resulted in overwhelmingly positive interactions. 

나의 이전 교육 및 학부에서, "현실로 나가면" 상황이 달라질 것이라는 말을 항상 들었다. 나는 그 말이 늘 우수웠는데, 교육경험의 요점이 나를 그 세계에 맞게 준비시키는 것이라고 믿었기 때문이다. 포트폴리오 시스템에서, 나는 무엇이 오든간에 스스로 준비되어있기 위해 세상에서 배우는 방법을 발견했습니다.

In my previous education and as an undergraduate, I had always heard that things would be different when I got ‘‘out into the real world.’’ I always found that silly because I believed that the point of the educational experience was to equip me for the world. In the portfolio system, I have discovered how to learn from the world in order to equip myself for whatever is to come.



우리 학생들의 포트폴리오 시스템에 대한 초기 회의론은 주로 포트폴리오 기반 접근법에 대한 본질적인 우려보다는 성적이 없는 것 때문이었다는 것을 발견하는 것은 다소 놀라운 일이었습니다. 겉으로 보기에는, 학생들은 참신한 피드백 시스템을 이용할 수 있었지만 처음에는 자신의 수행에 대한 '객관적인'척도를 놓치기를 주저했다.

It was somewhat surprising to find that our students’ initial skepticism with the portfolio system was primarily due to the lack of grades, rather than any intrinsic concerns about the portfolio-based approach. Seemingly, the students were open to utilizing a novel feedback system, but were initially quite hesitant to let go of ‘‘objective’’ measures of their performance.

그러나 일부 학생들의 이야기는 성적이 없는 것이 피드백 시스템에 대한 성찰적 접근 방식을 내부화하기 위한 촉매제였다고 지적했습니다. 예를 들어, 학생 2는 성적의 상실로 인해 교육이 의무mandate이라기보다는 기회로 간주되기 시작했다고 언급했다. "학생 3은 유사하게 외적 동기에서 내적동기 부여로의 전환을 언급했다. 커리큘럼 마감일을 가이드로 삼기보다는, 시스템 거치는 과정에서 지속적인 발전을 위해 스스로의 힘을 사용하기 시작했습니다. "

However, some student’s stories have put forth that the lack of grades was in itself a catalyst for internalizing the reflective approach to the feedback system. Student 2, for instance, notes that with the loss of grades he ‘‘began to view education as an opportunity rather than a mandate.’’ Student 3 similarly addressed the shift from external to internal motivation by commenting that, ‘‘instead of using curriculum due dates as guidelines, I began to use my own gauge for continued movement through the system.’’

네 명의 모든 학생들은 모두 포트폴리오 시스템이 이전의 성적 기반 시스템에는 없었던 방식으로, 특히 자기 성찰기술과 관련하여 향상시켰다고 지적했습니다.

All four students independently indicated that the portfolio system had education in ways enhanced their that prior grade-based systems had not, particularly concerning self-reflective skills.

학생들은 포트폴리오 시스템의 과정 자체가 성적의 존재 또는 부재와 상관없이 성찰적 실천의 발전을 도왔다는 점을 지적하였다. 비록 어떤 경우에는 이러한 과정은 성적 기반 시스템의 부재로 인하여 부차적으로 이루어진 향상이었다. 왜냐하면, 퍼포먼스를 평가하기 위해서 피드백에 대한 의존도고 높아졌기 때문이다.

Students do note that the process of the portfolio system in itself aided the development of reflective practice, independently of the presence or lack of grades. Although in some instances, it also appeared that this process was enhanced secondarily by the lack of a grade-based system due to increased dependence upon feedback to assess performance. 

또한 2 명 이상의 의대생이 USMLE 1 단계에서 자신의 점수를 인용하며, 이러한 비-테스트 기반 포트폴리오 시스템의 성공에 대한 또 다른 증거를 보여줍니다. USMLE 시험점수를 언급 한 학생들은 의대 첫 2 년 동안 얻은 지식에 자신감을 주었다고 언급했다.

It is also interesting that more than one medical student cited their score on the USMLE Step 1 examas further evidence of the success of this non-test-based portfolio system. The students who mentioned the exam noted that it gave them confidence in the knowledge they had gained during the first 2 years of medical school.

[중요한 피드백을 수용하는 것]을 배운 후에 포트폴리오 시스템을 수용하는 방향으로의 전환이 발생했습니다.

The transition toward acceptance of the portfolio system developed after learning to embrace critical feedback.

보편적으로, 학생들은 일단 포트폴리오 시스템의 "겪고 나면" 피드백을 바라보는 관점이 달라진다고 말하였다. 이러한 관점의 변화는 "부족함"이 아니라 "장점의 강화"로의 긍정적인 변화를 포함합니다. 네 명의 학생들은 예정된 피드백과 첫 번째 포트폴리오 작성을 하는 때가 피드백에 대한 관리 외에도 그에 대한 성찰을 배우는 시점이라고 히야기했다.

Universally, students described a reframing in their view of feedback once they had ‘‘gone through the motions’’ of the portfolio system. This reframing involves a positive shift from ‘‘deficit thinking’’ to ‘‘proficiency strengthening.’’ All four students cited receiving scheduled feedback and the writing of the first portfolio as a time where they learned to not only manage their feedback, but reflect on it.

피드백을 가지고 성찰하는 방법의 예로는...

  • 개별 의견에 초점을 맞추는 것보다 피드백의 전반적 추세를 파악하는 것, 

  • 정기적으로 피드백에 대해 성찰하는 것

  • 개선에 초점을 둔 목표 계획 수립

Highlighted methods included identifying trends in feedback rather than focusing on individual comments, reflecting on feedback on a regular basis, and making targeted plans for improvement.

포트폴리오 시스템은 피드백에 대한 성찰적 접근 방식의 내면화를 돕는 과정은 자전거를 타는 것을 배울 때 '훈련 바퀴'를 떼어가는 메타포를 사용하여 설명할 수 있다. 시스템은 성찰 방식을 실행하기위한 프레임워크를 제공합니다. 이 방식은 이상적으로 '교육용 바퀴'가 제거됨에 따라 학생의 제2의 성격이됩니다.

We use the metaphor of ‘‘training wheels’’ on a bicycle to describe the process by which the portfolio system aides in the internalization of the reflective approach to feedback. In this scenario, the system provides a framework for which to practice this reflective approach, which would ideally become second-nature as the ‘‘training wheels’’ are removed.

그러나 학생들이 평가 시스템에서 역량을 다루기가 어렵다는 것은 예상치 못한 발견이었다.

One unexpected finding, however, was that students hardly addressed the competencies of the assessment system

여러 서술에서 볼 때, 역량이 성찰과정의 내면화에 중요한지 여부는 불분명하다. 한 가지 가능성은 역량의 정의가 학생들이 성찰 과정에 대해 이해함에 있어서 중요한 역할을하지 않는다는 것입니다.

Whether the competencies are important for the internalization of the reflective process is unclear from these narratives. One possibility is that the competency definitions do not play an important role in the students understanding of the reflective process.

각 학생의 이야기는 의과대학의 첫 몇 년 동안 학생들의 교육적 접근법을 재구성하는 포트폴리오 시스템의 역할을 설명해준다. 또한 학생들은 의대 후반기에 포트폴리오 시스템이 덜 구조화 되더라도 이러한 성찰습관을 유지하는 방법을 자세히 설명했습니다.

Each story cites the role of the portfolio system in reshaping their educational approach during the first few years of medical school. The students also detailed how they learned to maintain these reflective habits when the structure of the portfolio system decreased during the latter years of medical school.

임상 로테이션을 완료 한 학생들은 어떻게 레지던트 및 주치의에게 서면 의견 및 구두 의견을 적극적으로 요청하였는지 설명했습니다. 특히, 학생들은 다음과 같은 노력을 언급했다.

  • 임상 로테이션 시작시 임상 멘토로부터 개선이 필요한 영역에 대한 피드백을 찾고,

  • 진행progress 과정을 측정하기 위해 계속적으로 피드백을 추구하며

  • 심지어 피드백을 거의 주지 않는 것이 일반화된 기관에서조차 이러한 접근법을 사용함

Students who had completed clinical rotations described actively seeking both written and verbal feedback from residents and attendings. Specifically, students mentioned their efforts in 

  • seeking targeted feedback for areas of self-improvement from clinical mentors at the start of clinical rotations, 

  • continually pursuing feedback throughout rotations to gauge progress, and 

  • even using this approach in institutions where minimal feedback was the norm.

학생들은 성찰과정의 내면화 과정에서 포트폴리오 프로세스와 형성적 피드백의 역할에 대해 높이 평가했지만, 학생들의 결손사고deficit thinking를 재구성 할 때 포트폴리오 시스템의 역량 플랫폼이 어떤 역할을하는지는 불확실합니다.

While these students appreciate the role of the portfolio process and formative feedback in the internalization of reflective practice, it remains unsettled what role the competency platform of the portfolio system plays in the reframing of students’ ‘‘deficit thinking.’’

Despite considerable evidence recognizing the importance of learners' perceptions of the assessment process, there is little literature depicting the participants' experience. We aim to capture these perceptions in order to gain insights into the strengths and weaknesses of a competency-based assessment system. Cleveland Clinic Lerner College of Medicine has implemented a learner-centered portfolioassessment system built around competency standards and continuous formative feedback. Promotion of students is based upon their feedback-supported portfolio essays, but feedback itself is individualized and formative in nature under the umbrella of the competencies. Importantly, there are no grades or ranking awarded for the competencies or at promotion. Four students share personal reflections of their experience to illuminate themes from the subjective experience of the learner and to understand how to align the learners' interests with the requirements of an assessment program.


포트폴리오 기반 평가프로그램의 근거: 학생은 근거로 무엇을 선택하는가?(Med Teach, 2012)

Evidence within a portfolio-based assessment program: What do medical students select to document their performance?


1Case Western Reserve University, USA, 2University of Minnesota, USA



단일 스냅 샷은 전체 퍼포먼스 그림을 구성하는 데 충분하지 않습니다.

A single snapshot will not suffice to form an overall picture of performance.

의학 교육자로서의 우리의 과제는 연수생의 능력에 대한 유효한 결론을 도출하는 데 필요한 '성과 스냅 샷'의 유형과 양을 결정하는 것입니다.

Our challenge, as medical educators, is to determine the types and quantity of ‘‘performance snapshots’’ needed to draw valid conclusions about trainees’ competence.

이상적으로, 이 퍼포먼스 데이터베이스는 연수생의 진행 및 전반적인 성과를 문서화하는 데 충분한 고품질 피드백을 제공해야합니다. 이러한 데이터베이스에는 광범위한 평가 증거가 포함되어야하며, 평가 데이터의 품질을 판단하여 연수생의 전반적인 성과를 나타내는 데이터 요소의 조합을 결정해야합니다 (Schuwirth & van der Vleuten 2011).

Ideally, this performance database should provide sufficient, high-quality feedback to document trainee progress and overall performance. Such a database should contain a broad array of assessment evidence, making it necessary to judge the quality of different pieces of assessment data to determine which combination of data points represents a trainee’s overall performance (Schuwirth & van der Vleuten 2011).

포트폴리오는 학습자가 성능의 종합적인 그림을 형성하기 위해 서로 다른 평가 증거를 구성하도록 장려하는 데 특히 적합한 도구로 인식되었습니다 (van Tartwijk & Driessen 2009). 그러나 포트폴리오에 포함시킬 평가 데이터를 누가 선택해야하는지에 대한 논쟁이 있습니다.

Portfolios have been recognized as a tool particularly well suited to encourage learners to organize disparate assessment evidence to form a composite picture of performance (van Tartwijk & Driessen 2009). Debate exists, however, about who should select assessment data to include in portfolios.

어떤 사람들은 학생들이 선택한 실적증거를 신뢰할 수 있는지 질문합니다. 특히 포트폴리오가 고부담 결정에 사용되는 경우에 그러하다.

Others question if students can be trusted to select evidence that represents their actual performance, especially when portfolios are used for high-stakes decisions

누가 포트폴리오 증거를 선택 하는가에 대한 논쟁은 타당도의 한 가지 조건을 강조합니다. 타당도는 포트폴리오에 포함시킬 평가 증거를 누가 선택했는지에 관계없이 충족되어야합니다.

The debate about who selects portfolio evidence underscores one condition of validity. This condition must be met regardless of who selects assessment evidence for inclusion in portfolios.

평가 프로그램

Assessment program

The Cleveland Clinic Lerner College of Medicine (CCLCM) started in 2002 as a 5-year undergraduate medical school program affiliated with Case Western Reserve University . We now explain the components and processes of the assessment program outlined in Figure 1.

전자 퍼포먼스 데이터베이스

Electronic performance database

CCLCM 학생들은 5 년간의 교육 프로그램 전반에 걸쳐 지속적인 형성적 피드백을받습니다. 이 피드백에는 

    • 다양한 유형의 평가 (예 : 수필, 시뮬레이션, 직접 관찰 등)

    • 다양한 평가자(교수, 피어, 자기자신)로부터 받은 평가

    • 다양한 학습 컨텍스트 (예 : 세미나, 소그룹 세션, 실험실 설정 및 외래 진료소).

CCLCM students receive continuous formative feedback throughout the 5-year instructional program. This feedback includes 
    • different types of assessments (e.g., essays, simulations, direct observations, etc.), 

    • from multiple assessors (e.g., faculty, peer, and self), and 

    • learning contexts (e.g., seminar, small group session, laboratory setting, and outpatient clinic). 

Table 1 summarizes all assessments CCLCM generates for firstyear medical students by method, assessor, and context.

대부분의 평가는 학생의 강점과 개선이 필요한 분야에 대한 서술형 피드백을 제공합니다. 학생들이 자신의 성과를 관리하는 데 도움이되는 교정 및 피드백이 풍부한 양질의 데이터를 제공하는 데 중점을두고 있습니다. 결과적으로 평가자를 대상으로 서술적인 피드백을 제공 할 수있는 상당한 리소스가 있습니다. '대학에서 생성한' 모든평가는 각 학생의 전자 실적 데이터베이스에 자동으로 업로드됩니다.

Most assessments provide narrative feedback about a student’s strengths and areas needing improvement .Emphasis is placed on providing quality data, rich in corrective and reinforcing feedback to help we students devote regulate their performance. Consequently, considerable resources to train assessors to give targeted, narrative feed-back. All ‘‘College-generated’’ assessments are automatically uploaded into each student’s electronic performance database.

퍼포먼스의 모니터, 검토, 보고 프로세스

Process to monitor, review, and report performance

입학시 각 학생에게는 지도교수가 배정됩니다.

Each student is assigned a physician advisor at matriculation.

학생들은 1, 2, 4 학년 말에 요약 포트폴리오를 구성합니다. 포트폴리오 지침을 통해 학생들은 실적을 문서화하기 위해 전자 데이터베이스에서 대표적인 균형 잡힌 증거를 선택할 수 있습니다. 학생들은 각 역량별로 에세이를 작성해야합니다.

Students construct summative portfolios at the end of Years 1, 2, and 4. Portfolio instructions direct students to select representative, balanced evidence from their electronic database to document their performance. Students must write an essay for each competency.

학생들은 각 요약 포트폴리오를 작성할 때 100개 이상의 citation을 넣을 수 없습니다. 총 자료인용 횟수가 제한되어있기 때문에 학생들은 포함 할 데이터를 선택할 때 매우 전략적인 자세를 취해야합니다. 데이터의 의미와 품질을 판단해야합니다.

Students cannot exceed 100 citations when constructing each summative portfolio. Limiting the total citations during portfolio construction requires students to be highly strategic when selecting data for inclusion. They must make judgments about the meaning and quality of the data.

지도교수는 포트폴리오 에세이와 인용 된 증거가 각 학생의 일work과 성과를 정확하게 나타내는 지 확인하기 위해 지정 학생이 작성한 요약 포트폴리오를 1 년 내내 읽습니다. 의사 고문이 포트폴리오 내용의 정확성을 확인하고 서명 한 후 포트폴리오를 검토를 위해 진급사정위원회에 제출합니다.

Physician advisors read the summative portfolios their assigned students construct to ensure the portfolio essays and cited evidence accurately represent each student’s work and performance throughout the year. After physician advisors have verified and signed off on the accuracy of portfolio contents, the portfolios are submitted to the promotion  committee for review


Promotion decision process

진급위원회는 학생 진급 결정을위한 기초로서 성적 또는 포괄적 인 시험보다는 요약 포트폴리오를 사용합니다

A promotion committee uses summative portfolios rather than grades or comprehensive examinations as the basis for student promotion decisions


First, we examined the evidence cited in portfolio essays to ascertain what types and sources were selected. Second, we obtained feedback from promotion committee members concerning the quality of evidence via a questionnaire

Citation coding procedures and data

A research assistant extracted essays from the e-Portfolio database for seven of the nine competencies included in the Year 1 summative portfolios that students submitted during the 2009–2010 academic year

Quality ratings

Promotions committee members involved with portfolio reviews (n¼18 faculty) completed a 21-item, web-based questionnaire after reading students’ Year 1 summative port-folios. 





우리의 연구 결과는 의사 소통과 프로페셔널리즘 같은 [학습 과정과 코스를 가로 지르는 broad-base 역량]이 [상황 의존적 또는 점진적 경험이 필요한 역량] (예 : 임상 추론)보다 더 많은 평가 기회를 제공함을 나타냅니다. Health care systems와 같은 Competencies는관련 학습 경험 및 평가와 일치하는 표준을 개발하는 데 더 많은 주의와 자원이 필요할 수 있습니다.

Our findings suggest broad-based competencies which cut across courses and learning contexts such as Communication and Professionalism provide more and/or better assessment opportunities than competencies requiring context-dependent or progressive experience (e.g., Clinical Reasoning). Care Systems Competencies such as Health may require more attention and resources to develop standards that align with relevant learning experiences and assessments.

우리는 학생들이 포트폴리오에 대한 증거를 성찰하고 의도적으로 선택하도록 요구함으로써 학습의 소유권을 획득하도록 권장하는 시스템을 설계했습니다 (Arter & Spandel 1992). 학생들은 총괄 포트폴리오 작성할 때 이용할 수만 있다면 'College-generated' '증거를 선택하는 것으로 보입니다. 학생들은 자신의 성과에 대해 포트폴리오에 인용 할 수있는 충분한 양질의 증거가없는 경우에만  자기-생성 자료를 사용하거나, 보다 개인적인 관점을 제시하는 경향이있었습니다.

We designed a system that encourages students to take ownership of their learning by requiring that they reflect on and purposefully select portfolio evidence (Arter & Spandel 1992). It appears that students will select ‘‘College-generated’’ evidence for their summative portfolios when available. Students tended to use self-generated data and give a more personalized view of their performance only when they did not have sufficient, high-quality evidence to cite in their portfolios.

평가의 프로그램적 방식은 퀄리티와 정보가 풍부한 평가 자료를 보장하기 위해 deliberate한 설계 및 평가 절차가 필요합니다 (Baartman 외 2007, Dijkstra 외 2009). 우리 프로그램에서 학생들은 자신의 역량을 문서화하기 위하여 지난 1년간 축적된 형성평가 자료들를 해석, 선택, 결합 할 책임이 있습니다. 이 책임을 학생들에게 부여함으로써, 우리는 학생들이 자기조절 과정을 내면화하는 데 도움이되는 경험을 제공합니다 (Altahawi 외 .2011). 본 연구는 이 과정에서 학생들을 지원하도록 고안된 프로그램에서, (포트폴리오의) 퀄리티에 대한 (교수의) 인식은 [학생들이 선택할 수있는 충분한 평가 데이터의 가용성]에 달려 있음을 제시합니다.

A programmatic approach requires deliberate design and evaluation procedures to ensure quality, information-rich assessment data (Baartman et al. 2007; Dijkstra et al. 2009).In our program, students are given the responsibility to interpret, select, and combine formative assessments received during the year to document their performance. By giving this responsibility to students, we provide an experience that helps them internalize the self-regulation process (Altahawi et al.2011). This study suggests that, in a program designed to support students in this process, the perception of quality is dependent on the availability of sufficient assessment data from which students can select. 

 2012;34(3):215-20. doi: 10.3109/0142159X.2012.652241.

Evidence within a portfolio-based assessment program: what do medical students select to document their performance?

Author information

Cleveland Clinic Learner College of Medicine, Case Western Reserve University, Cleveland, OH, USA. dannefe@ccf.org



Decisions about performance in programs of assessment that provide an array of assessment evidence require judgments about the quality of different pieces of assessment data to determine which combination of data points best represent a trainee's overall performance.


In this article, we examine the nature of evidence selected by first-year medical students to include in a portfolio used to make promotion decisions.


We reviewed portfolios to examine the number, type, and source of assessments selected by students (n = 32) to document their performance in seven competencies. The quality of assessment data selected for each competency was rated by promotion committee members (n = 14).


Findings indicate that students cited multiple types and sources of available assessments. The promotion committee rated evidence quality highest for competencies where the program provided sufficient evidence for students to cite a broad range of assessments. When assessments were not provided by the programstudents cited self-generated evidence.


We found that when student-constructed portfolios are part of an overall assessment system, students generally selectevidence in proportion to the number and types of assessments available.


포트폴리오 평가의 신뢰도 평가의 대안으로 질적연구 기준 활용(Med Educ, 2005)

The use of qualitative research criteria for portfolio assessment as an alternative to reliability evaluation: a case study

E Driessen,1 C van der Vleuten,1 L Schuwirth,1 J van Tartwijk2 & J Vermunt3



많은 평가 도구가 그러했듯, 포트폴리오라는 용어는 다양한 방법을 다루는 컨테이너적 개념이 되었습니다 .1,2 모든 포트폴리오의 핵심은 학생이 자신의 학습 프로세스 및 역량 수준의 증거로 수집하는  정보입니다. 증거는 역량에 따라 구성되며 교육 성과 및 개인적 및 직업적 발전에 대한 성찰로써 보완 될 수 있습니다 .3 포트폴리오는 주로 실제 상황에서의 성과를 평가하고, 학습자가 성과에 대해 성찰하도록 권장합니다 .4 포트폴리오를 총괄평가의 목적으로 사용하게 된다면 심리측정적 특성이 신뢰성 측면에서 엄격한 요구 사항을 충족해야합니다.

As has happened with many assessment instruments, the term  portfolio  has become a container concept covering a diversity of methods.1,2 At the heart of every portfolio is information collected in evidence of the owner’s learning process and⁄ or competence levels. The evidence is often organised by competencies and may be supplemented with reflections on educational achievement and personal and professional development.3 Portfolios were primarily introduced to assess performance in authentic contexts and encourage learners to reflect on their performance.4 When portfolios are used for summative rather than formative assessment, the psychometric qualities must meet stringent requirements, particularly in terms of reliability.

피할 수없는 결론은 포트폴리오를 총괄평가적 목적으로 사용할 때 극도의주의가 필요하다는 것입니다 .7

The inevitable conclusion is that extreme caution is warranted when portfolios are used for summative purposes.7

포트폴리오 평가에서 내부자 신뢰도를 향상시키기위한 몇 가지 전략이 있습니다.

There are several strategies for improving interrater reliability in portfolio assessment:

1 표준화 : 예를 들어, 내용을 구성하고 증거의 출처 수를 제한;

2 엄격한 성과 기준을 갖춘 체크리스트를 활용하여 평가자 교육 및 판단의 구조화

3 많은 평가자를 사용하여 평가자 효과를 평균화.

  • 1 standardisation: for example, by structuring content and restricting the number of admissible sources of evidence;

  • 2 rater training and the structuring of judgement through checklists with strict performance criteria, and
  • 3 using large numbers of raters to average out any rater effects.

처음 2 가지 전략의 단점은 타당성을 위태롭게한다는 것입니다. 포트폴리오는 학생들이 개인적, 정통적, 교육적 경험과 경험을 실제 사례로 제출할 수있게 해 주므로 크게 유용합니다. 이러한 경험을 표준화하면 필연적으로 포트폴리오의 교육적 가치가 떨어집니다.

The disadvantage of the first 2 strategies is that they jeopardise validity. Portfolios are valuable largely because They enable students to present documentation of their personal, authentic, educational experiences and experiences in real practice. Standardising those experiences would inevitably detract from the portfolio’s educational value.

상세한 체크리스트는 쉽게 평가를 trivialise 할 수 있습니다.

detailed checklists can easily trivialise assessment

평가자의 수를 늘리는 것은, 포트폴리오 판단이 시간-소모적인 성격을 갖는다는 것과 같은 실용적인 제약만 아니라면, 효과적인 전략이 될 것입니다.

Increasing the number of raters would be an effective strategy, were it not for practical constraints, such as the time-consuming nature of portfolio judgement.

요약하면, 포트폴리오 평가는 열악한 신뢰성과 부실한 타당성이라는 두 가지 classic evil의 사이에 끼어들 것으로 보입니다.

In summary, portfolio assessment appears to be caught between the 2 classic evils of poor reliability and poor validity.

포트폴리오의 타당성과 신뢰성에 관한 논의에 퍼져있는 일반적인 오해는 주관성은 낮은 신뢰도와 같고, 객관성이 높은 신뢰도와 동일하다는 것입니다. 이것은 늘 그런 것은 아니다. 객관적인 검사가 신뢰할 수 없을 수도 있고(단일 항목, 객관식 검사), 더 중요한 것은 주관적인 판단도 적절한 수의 다양한 판단이 수집되고 대조되는 경우 신뢰할 수 있다는 것입니다 .12 어떤 형식의 평가이든, 공정한 결정을 위해서는 그 평가결과가 역량을 최적으로 반영해야합니다. 이는 편향과 오류의 최소화함으로써, 평가가 여러 candidate간에 비교 가능해야한다는 것을 의미합니다.

Common misconceptions pervading this discussion are that subjectivity equals unreliability and that objectivity equals reliability. This is not universally true: objective examinations may be unreliable (cf. a single-item, multiple-choice examination) and – more importantly – subjective judgements can be reliable provided an adequate number of different judgements are collected and collated.12 In any formal assessment procedure a fair decision must optimally reflect the demonstrated competence. This implies that assessments must be comparable across candidates, with minimisation of bias and error.

질적 연구에서의 신뢰성 (내부 타당도 참조)과 의존성 (신뢰도 참조).

credibility (cf. internal validity) and dependability (cf. reliability) in qualitative research.13

질적 데이터의 신뢰성을 평가하기 위해 링컨과 구바는 전통적인 기준을 일련의 유사한 방법론적 기준으로 체계적으로 대체했습니다. 핵심 기준은 결과 내에서의 진실 가치와 관련된 신뢰도로서, 제공되는 증거에 의해 믿을 수 있고 뒷받침된다 .13 credibility and dependability을 보장하기 위해 많은 방법 론적 전략이 제안되었다.

To assess the trustworthiness of qualitative data, Lincoln and Guba have systematically replaced traditional criteria by a set of parallel methodological criteria. A central criterion is credibility, which relates to the truth value within the findings so that they are both believable and supported by the evidence provided.13 A number of methodological strategies have been suggested to ensure credibility and dependability.14

다음 3 가지 전략은 credibility를 확보하는 데 중요합니다.

  • 삼각 측량 (서로 다른 정보원을 결합 함);

  • 장기간의 참여 (연구원의 충분한 시간 투자),

  • 멤버 체킹 (수집 된 그룹의 구성원이 데이터 검토).

The following 3 strategies are important for reaching credibility: 

  • triangulation (combining different information sources); 

  • prolonged engagement (sufficient time investment by the researcher), and 

  • member checking (testing the data with the members of the group from which they were collected). 

dependability 실현을 위한 전략 - 신뢰성의 펜던트)
  • 감사 추적 설정 (즉, 외부 점검을 가능하게하는 평가 프로세스의 문서화) 및

  • 의존성 감사 (즉, 외부 감사원과의 품질 평가 절차)를 수행합니다

The strategies for realising dependability – the pendant of reliability ) involve 

  • establishing an audit trail (i.e. documentation of the assessment process to enable external checks) and 

  • carrying out a dependability audit (i.e. quality assessment procedures with an external auditor).

연구 맥락


이 사례 연구는 네덜란드의 마스트리히트 대학 (Maastricht University)의 학부 의학 커리큘럼 1 학년에 사용 된 포트폴리오 평가 절차를 탐구했습니다. 포트폴리오의 구조는 의사의 4 가지 역할 : 의료 전문가, 과학자, 의료 종사자 및 사람에 의해 제공되었습니다. 각 역할에 대한 글로벌 기준이 고안되었으며 학생들은 연말까지이 기준을 충족 시켰음을 증명하는 증거를 수집해야했습니다. 학생들은 의대교수들에게 멘토링을 받았습니다.

This case study explored the portfolio assessment procedure used in Year 1 of the undergraduate medical curriculum at Maastricht University, the Netherlands. The structure of the portfolio was provided by 4 different roles of a doctor: medical expert, scientist, health care worker and person. Global criteria were devised for each role and students had to collect evidence demonstrating that by the end of the year they had met those criteria. The students were mentored by medical school staff.

학년 초에 포트폴리오 시스템이 소개되었고 학생들은 포트폴리오 연습을 실시했습니다. 포트폴리오에서 학생들은 의사의 4 가지 역할과 관련하여 개인적인 강점과 약점에 대한 분석을 제시해야했습니다. 이러한 성찰은 평가와 시험에서의 피드백과 완료된 과제와 같은 증거에 의해 뒷받침되어야했습니다. 학생들은 또한 다음 학기 동안 학습 계획을 작성해야했습니다.

At the beginning of the academic year the portfolio system was introduced and students carried out some portfolio exercises. In the portfolio students had to present an analysis of their personal strengths and weaknesses in relation to the 4 roles of a doctor. These reflections had to be backed up by evidence, such as feedback from evaluations and tests and completed assignments. Students were also required to draw up a learning plan for the next period. 

학년도 중반에 학생들은 피드백을 준 멘토에게 포트폴리오를 제출했습니다. 진행 회의에서 학생과 멘토는 포트폴리오와 4 가지 역할에 대한 학생의 역량 개발에 관해 논의했습니다. 학생은 자신이 받은 피드백에 따라 포트폴리오를 조정할 것으로 가정했습니다. 학년 말에 이 제출, 피드백, 조정의 사이클이 반복되었습니다. 이 포트폴리오 형식은 다른 곳에서 더 자세하게 설명되어 있습니다.

Halfway through the academic year the students submitted their portfolios to their mentors, who gave feedback. In a progress meeting student and mentor discussed the portfolio and the student’s competence development regarding the 4 roles. It was assumed that the student would adjust the portfolio in accordance with the feedback received. At the end of the academic year this cycle of submission, feedback and adjustment was repeated. This portfolio format has been described in greater detail elsewhere.17

형성평가와 총괄평가

Formative and summative assessment

1 학년 포트폴리오의 목적은 주로 형성 적이었습니다. 평가 프로그램의 일환으로 피드백을 촉진하고 학생들이 역량 개발을 모니터하고 성찰, 계획, 재교육 기술을 개발하도록 돕기위한 것입니다.

The purpose of the Year 1 portfolio was primarily formative. It was intended to promote feedback as part of the assessment programme and help students monitor their competence development and develop reflective, planning and remediation skills.

포트폴리오는 또한 총괄적인 목적으로 사용되었습니다. 이것은 다음과 같은 두 가지 이유로 바람직하다고 판단되었습니다.

The portfolio also served a summative purpose. This was considered desirable for 2 reasons:

  • 경험에 따르면 온전한 형성 평가는 점차 기세를 잃는 경향이 있다. 그리고 약간의 시간이 지나면 학생들의 학습을 원하는 방향으로 이끌 수있는 새로운 자극이 필요합니다.

  • 포트폴리오 평가는 professional progress에 뒤쳐졌거나, 성찰/계획/재교육 능력이 부족한 학생을 식별 할 수있는 독특한 기회를 제공하기 때문입니다. 포트폴리오가 고부담 평가이고, 공정한 결정이고, 의사 결정 오류를 최대한으로 예방하는 것이 본질이다.

  • 1 because experience has taught that purely formative assessment tends to lose momentum and after some time a new impetus is needed to steer student learning into the desired direction,18

  • 2 because portfolio assessment offers a unique opportunity to identify students who are lagging behind in professional progress and who show insufficient ability to reflect, plan and⁄ or take remedial action. it will be clear that the portfolio is a high stakes assessment and fair decisions and maximum prevention of decision errors are of the essence.

포트폴리오 평가 절차


포트폴리오의 질을 평가하기 위해 다음의 다소 글로벌 한 기준이 사용되었습니다.

The following, rather global, criteria were used to assess the quality of the portfolios:

• 강점과 약점 분석의 질;

• 증거의 질.

• 강점과 약점에 대한 분석을 성찰한 정도에 대한 증거

• 학습 목표의 명확성과 실행 가능성

• 학습 목표를 달성 한 정도.

• the quality of the analyses of strengths and weaknesses;

• the quality of the evidence;

• the extent to which the evidence reflected the analyses of strengths and weaknesses;

• the clarity and feasibility of the learning objectives, and

• the extent to which the learning objectives were achieved.

이러한 기준은 포트폴리오 사이클에서 다음 단계를 표현합니다 : 

  • 역량 개발에 대한 성찰; 

  • 증거 모으기; 

  • 증거를 성찰에 연계

  • 학습 목표를 수립하여 역량 개발

These criteria express the following steps in the portfolio cycle: 

  • reflect on competence development; 

  • sample evidence; 

  • link evidence to reflection; 

  • formulate learning objectives, and develop competence.

포트폴리오 프로세스의 모든 단계에서 평가가 발생했습니다.

Assessment occurred in all phases of the portfolio process:

  • 멘토와 학생 정기 모임에서 포트폴리오를 편집하는 동안;

  • 멘토와 학생이 최종 학년을 추천 한 연말 회의에서

  • 포트폴리오 평가위원회 (PAC)에 포트폴리오를 제출 한 후 최종 점수 결정

  • 1 during the compilation of the portfolio in regular meetings of mentor and student;
  • 2 in the end-of-year meeting when mentor and student recommended the final grade, and

  • 3 after submission of the portfolio to the portfolio assessment committee (PAC) for final grading.

포트폴리오 컴파일

Compiling the portfolio

1 년 동안 학생들은 건설적인 구두 및 서면 서사 피드백을 제공 한 멘토와 적어도 2 회의 세션에서 진도를 논의했습니다.

Over the course of the year the students discussed their progress in at least 2 sessions with their mentor, who provided constructive oral and written narrative feedback.

멘토가 감독자와 평가자의 역할을 모두 수행하는 것은 어렵지만 불가능하지는 않다. 비슷한 역할 조합이 관련된 전형적인 예는 지도교수와 박사 과정 학생 간의 관계입니다.

The mentor’s combined role of supervisor and assessor can be a difficult, albeit not impossible, task. Aclassic example of a situation involving a similar role combination is the relationship between supervisor and PhD student.

이 두 차례의 세션은 멘토가 경험과 정보를 공유하는 인터뷰 세션으로 보완되었습니다. 이 접근법의 목적은 멘토가 이중 역할을 수행하는데 어려움이 없도록 지원하고, 학생들에게 피드백을 위한 건전한 토대를 마련하는 것이 었습니다.

These sessions were supplemented by intervision sessions, in which the mentors shared experiences and information. The purpose of this approach was to support the mentors in their difficult double role and build a sound foundation for feedback to the students.

Recommendation by mentor and student

학생과 멘토가 성적에 동의하면, 학생은 추천서에 서명했습니다. 학생이 동의하지 않으면 서명하지 않았습니다. 그 경우에, 포트폴리오는 위원회에 제출되었습니다.

When student and mentor agreed on the grade, the student signed the recommendation. The student did not sign if there was disagreement, which the student indicated on the assessment form. Subsequently, the portfolio was submitted to the committee.

Portfolio assessment committee

평가 절차의 마지막 단계는 평가위원회의 순차적 판단 절차로 구성됩니다. 그림 1은 흐름도의 평가 절차를 나타냅니다.

The final step of the assessment procedure comprised a sequential judgement procedure by the assessment committee. Figure 1 presents the assessment procedure in a flowchart.

최종 결정은 학생의 멘토를 제외한 상태에서 위원회 구성원 간의 합의로 결정한다. 멘토는 평가자가 아니라 가장 먼저 감독자이기 때문에 멘토는 최종 결정에 투표권이 없습니다.

The final decision was based on consensus among the committee members, excluding the student’s mentor. As the mentor is first and foremost a supervisor, rather than an assessor, the mentor had no vote in the final decision.



우리는 결정 과정의 신뢰성을 극대화하기 위해 절차 과정에 몇 가지 절차적인 보호 장치를 통합했다 .13) 평가 프로세스의 핵심 요소는 다음과 같다 :

We incorporated some procedural safeguards into the assessment process to achieve maximum credibility of the decisions.13)15 Essential elements in the assessment process were:

• 피드백주기

  • 멘토의 최종 추천이 학생을 불쾌하게 하거나 놀라게 하지 않도록 포트폴리오를 작성동안 멘토링 프로세스를 통합

  • 이 요소는 장기간 참여와 구성원 점검의 신뢰성credibility 전략과 관련이있다.

• feedback cycles, incorporated into the mentoring process during the compilation of the portfolio to ensure that the mentor’s final recommendation did not come as a(n) – unpleasant – surprise to the student; this element relates to the credibility strategies of prolonged engagement and member checking;

• 멘토의 코치 역할과 평가자 사이의 균형을 유지함.

  • 학생을 가장 잘 아는 사람이 가장 관련있는 정보를 제공했는지 확인

  • 이는 멘토-학생 관계에 피해를 최소화하는 동시에, 장기간 참여의 신뢰성credibility 전략과 관련이있다.

• maintaining a careful balance between the mentor’s roles of coach and assessor, ensuring that the person who knew the student best provided the most relevant information while at the same time minimising any damaging effect to the mentor)student relationship; this relates to the credibility strategy of prolonged engagement;

• 결정 과정에 학생 개입

  • 학생의 참여를 보장하고 학생이 멘토와 다른 관점으로 의사 소통 할 수 있도록합니다.

  • 이것은 회원 확인의 신뢰성credibility 전략과 관련이있다.

• student involvement in the decision process to ensure commitment on the part of the student and allow the student to communicate a different point of view to that of the mentor; this relates to the credibility strategy of member checking, and

• 상충정보가 있을수록 더 많은 정보 수집을 필요로하는 순차적 판단 절차

  • 절대적으로 이러한 상황에 필요한 경우에 자원을 사용할 수 있도록 남겨둠으로써 보다 신뢰성있는 판단을 할 수 있록 함

  • 결과적으로, 더 많은 자원 (즉, 멘토 시간)이 학생 코칭에 사용되었고, 포트폴리오의 주요 목적에 부합한다

  • 이 요소는 삼각 측량의 신뢰성 전략과 관련이 있습니다.

• a sequential judgement procedure in which conflicting information necessitated more information gathering, ensuring efficient use of resources by reserving efforts to achieve more reliable judgement in cases where this was absolutely necessary. As a result, more resources (i.e. mentor time) were available for coaching students, which is in line with the main purpose of the portfolio. This element relates to the credibility strategy of triangulation.

Dependability는 감사 추적 설정 및 외부 감사인의 사용으로 확보 할 수 있습니다. 두 가지 전략 모두 평가 절차를 모니터하는 데 사용되었습니다. 감사 추적은 평가 프로세스의 여러 단계에 대한 포괄적 인 문서로 구성됩니다.

  • 시험위원회가 승인 한 공식적 평가 계획;

  • 포트폴리오 및 평가 지침;

  • 단계별 결과 개요

  • 학생 당 서면 평가서.

Dependability can be reached by establishing an audit trail and by the use of external auditors. Both strategies were used to monitor our assessment procedure. The audit trail consisted of comprehensive documentation of the different steps of the assessment process: a formal assessment plan approved by the examination board; portfolio and assessment guidelines; overviews of the results per phase, and written assessment forms per student.

멘토링 프로세스는 자원 집약적 이었지만 대부분의 멘토는 멘토링 및 형성적 피드백 제공에 시간을 쏟았으며, 공식 평가에서는 작은 부분만 소비하였다. 비공식적 인 브리핑을하는 동안 멘토들은 판단 절차가 그들을 과도하게 부담시키지 않았 음을 지적했다.

Although the mentoring process was resource intensive, most of the mentors’ time was spent on mentoring and formative feedback and only a minor portion on formal assessment. During an informal debriefing the mentors indicated that the judgement procedure had not burdened them disproportionately.

포트폴리오 평가를 위해서는 질적 연구의 기준이 신뢰도와 같은 정량적 연구의 기준보다 더 적합 할 수 있습니다 . 반복적인 평가 (정량적 평가의 정신측정 접근법)로 일관성을 보기보다는, 정보가 포화 상태가 될 때까지 판단 프로세스에 정보를 추가했습니다 (질적 인 접근) .20

for portfolio assessment, criteria from qualitative research might be more appropriate than criteria from quantitative research, like reliability.3 Instead of looking at consistency across repeated assessments (a quantitative psychometric approach), we added information to the judgement process until saturation of information was reached (a qualitative approach).20

 2005 Feb;39(2):214-20.

The use of qualitative research criteria for portfolio assessment as an alternative to reliabilityevaluation: a case study.

Author information

Department of Educational Development and Research, Maastricht University, PO Box 616, 6200 MD Maastricht, The Netherlands. e.driessen@educ.unimaas.nl



Because it deals with qualitative information, portfolio assessment inevitably involves some degree of subjectivity. The use of stricter assessment criteria or more structured and prescribed content would improve interrater reliability, but would obliterate the essence of portfolioassessment in terms of flexibility, personal orientation and authenticity. We resolved this dilemma by using qualitative research criteria as opposed to reliability in the evaluation of portfolio assessment. METHODOLOGY/RESEARCH DESIGN: Five qualitative research strategies were used to achieve credibility and dependability of assessment: triangulation, prolonged engagement, member checking, audit trail and dependability audit. Mentors read portfolios at least twice during the year, providing feedback and guidance (prolonged engagement). Their recommendation for the end-of-year grade was discussed with the student (member checking) and submitted to a member of the portfoliocommittee. Information from different sources was combined (triangulation). Portfolios causing persistent disagreement were submitted to the full portfolio assessment committee. Quality assurance procedures with external auditors were used (dependability audit) and the assessment process was thoroughly documented (audit trail).


A total of 233 portfolios were assessed. Students and mentors disagreed on 7 (3%) portfolios and 9 portfolios were submitted to the full committee. The final decision on 29 (12%) portfolios differed from the mentor's recommendation.


We think we have devised an assessment procedure that safeguards the characteristics of portfolio assessment, with credibility and dependability of assessment built into the judgement procedure. Further support for credibility and dependability might be sought by means of a study involving different assessment committees.

[Indexed for MEDLINE]

학부의학교육 초기에 포트폴리오 활용(Med Teach, 2003)

Use of portfolios in early undergraduate medical training


Department of Educational Development and Research, Faculty of Medicine, Maastricht University, The Netherlands



학생들이 (학교에서 수업받는 단계를 지나) 독립적으로 의사의 업무를 수행하게 될 때 '실제'상황의 복잡성에 압도당하는 것으로 나타납니다. 그들의 최우선 순위는 이러한 상황에 대처하는 것입니다. 학생들은 커리큘럼의 앞 부분(=교과서)에서 얻은 통찰력과 모순되더라도, 생존에 도움이되는 전략을 따른다.

when students are deemed to perform the task of an independent doctor, they prove to be overwhelmed by the complexity of ‘real-life’ situations. Their first priority will be to cope with these situations. They will accept strategies that will help them to survive, even if they are incompatible with their insights from the first part of the curriculum.

특히 학생들의 이론적 지식은 잘못된 방식으로 구성되어 있다. 환자는 불만과 증상을 나타내지만, 학생들의 지식은 진단을 중심으로 구조화됩니다 (Prince et al., 2000). 임상실습생은 "이론은 잊어라. 실전에서 우리는 이런 식으로 일을 한다"는 말을 자주 듣는다. 따라서 그들은 의과대학의 초기 단계에서 습득한 이론 지식을 억제하는 동시에, 의사로서의 수행 능력을 이끌어 낼 실질적인 지식과 전략을 개발합니다.

Moreover, particularly during the practical period, the students’ theoretical knowledge is structured the wrong way: a patient presents him/herself with complaints and symptoms, whereas the students’ knowledge is structured around diagnoses (Prince et al., 2000). Clerks are often almost literally told: ‘Forget theory: in practice we do things this way’. Thus, they develop practical knowledge and strategies that will guide their performance as doctors, suppressing the theoretical knowledge acquired in the earlier stages of the study.

Authentic learning과 이론 교육의 결합은 학생들로 하여금 이론과 실천을 더 잘 연계시킬 수있게합니다.

The combination of authentic learning and theory instruction should better enable students to relate theory to practice.

Authentic learning을 지도하고 평가하는 중요한 도구는 포트폴리오입니다. 포트폴리오에서 학생들은 자신의 행동을 체계적으로 되돌아보고, 이론적 지식의 도움을 받아 분석하고, 대체 방법을 지정합니다. 우리는 이러한 형태의 체계적인 자기 조절을 '성찰'이라고 부른다(Korthagen, 2001).

An important tool for coaching and assessing authentic learning is the portfolio. In a portfolio students look back on their actions systematically, analyse them with the aid of, theoretical knowledge and designate alternative methods of action. We will refer to such a form of systematic self-regulation as ‘reflection’ (Korthagen, 2001).

보통 포트폴리오는 높은 학년 수준에서 실제 학습을 평가하고 코칭을하기에 특히 적합하지만, 우리는 교육과정 초반에 포트폴리오를 도입하는 것이 적절하다고 느꼈습니다. 그 목적은 학생들의 성찰적 능력을 개발하는 것이 었습니다. 의과대학 1학년과 4학년 모두에게 스스로의 학습을 성찰하는 것은 자명한 것은 아닙니다 (Wade & Yarbourgh, 1996).

Although the portfolio is especially suited for coaching and assessing authentic learning at more senior levels of training, it was felt appropriate to introduce the portfolio in the early years of the curriculum. The express purpose was to develop the students’ reflective ability. For students of both the first and the final year of medical training, reflecting on their own learning is not self-evident (Wade & Yarbourgh, 1996).

성찰을 자극하는 것 외에도 우리는 커리큘럼에서 포트폴리오를 조기에 도입할 수 있는 세 가지 다른 이유가있었습니다.

  • 두 번째는 학생들이 공부하는 동안 pastoral care을 받을 수있는 멘토링 시스템을 만드는 것이 었습니다. 

  • 세 번째는 학생들에게 학습과 평가에 대한 책임을 더 많이 부여하는 것이 었습니다. 

  • 마지막 목표는 포트폴리오를 평가 시스템의 일부로 만들어 학생들이 모든 평가 피드백을 검토하고 통합하도록 강제하는 것입니다.

In addition to stimulating reflection, we had three other reasons for an early introduction of portfolio in our curriculum. The second reason was to create a mentoring system in which student could receive pastoral care during their studies. A third was to give students more responsibility for their learning and assessment. The last goal was to make the portfolio part of the assessment system, forcing students to review and integrate all assessment feedback.

Maastricht 1학년 포트폴리오

The Maastricht portfolio in the first year of medical studies

따라서 우리는 포트폴리오 시스템을 설계 할 때 의료 교육 외부 및 내부의 포트폴리오 시스템 경험을 활용했다.

In designing our portfolio system, we had therefore to transpose the experience with portfolio systems outside and within medical training to a situation of first-year medical students.



많은 포트폴리오 시스템이 너무 많은 '지정 항목'을 가지고 있다. 학생들이 포트폴리오를 편집하는 자유가 거의 주어지지 않는다면, 자기들이 관찰한 것을 포함하려고 하지 않을 것이다 (Murphy et al., 1997). 학생의 소유권은 성찰을 성공적으로 자극하는데 중요한 기여를합니다.

Many portfolio systems prove to have too much of a prescribed character: it has become evident that, if students are afforded little freedom compiling the portfolio, they will not readily include their observations (Murphy et al., 1997). Student ownership is an important contributor to successful stimulation of reflection.

그러나 포트 폴리오에 대한 구조가 거의 또는 전혀없는 경우에는 학생들이 어떻게해야하는지 잘 모릅니다 (Wade & Yarbourgh, 1996, Gearhart & Wolf, 1997). 너무 적은 구조를 제공하는 포트폴리오 시스템은 종종 처음으로 포트폴리오를 컴파일하는 학생들에게 좌절감을 안겨줍니다.

If, however, little or no structure is provided for the port-folio, students often have no idea how to go about it (Wade& Yarbourgh, 1996; Gearhart & Wolf, 1997). Portfolio systems that provide too little structure often lead to frustrating experiences, especially for students who are compiling a portfolio for the first time.

학생 스스로의 성과에 대한 자체 평가 및 분석은 설명 자료를 체계적으로 참고함으로써 역할별로 구성됩니다.

Self-assessment and analysis of the student’s own performance is organized on a role-by-role basis, underpinned by systematic reference to illustrative materials.

포트폴리오 구조는 다음과 같다

The structure of the portfolio is as follows:

  • curriculum vitae;

  • role as medical expert;

  • role as researcher;

  • role as healthcare worker;

  • role as person;

  • general:

– 강점과 약점 요약 summary of strengths and weaknesses analysis;

– 프로그레스 인터뷰 보고, 최종 인터뷰 보고report of progress interview and/or of exit interview/ advice

  • annexes.

학생들은 자료를 자유롭게 선택할 수 있습니다. 각 전문직의 역할에 대해, 여러 가지 탐색 질문을 공식적으로 제공하여, 학생들이 '스스로 돌아보기' 부분을 어떻게 작성할지 안내하였다. 탐색 질문은 학습에 대한 성찰을 격려하는 방향으로 제시되었다 (Spandel, 1997). 질문은 학생들의 사고 과정을 구성합니다.

The students are free in their choice of materials. For each professional role, a number of probing questions have been formulated to guide the student in writing the introspective part. Posing probing questions is a way to encourage reflection on learning (Spandel, 1997). The questions structure the students’ thought processes.

각 전문직의 역할에 대해 학생들은 무엇을, 어떻게 배웠으며, 어떻게 향상 시키려고하는지 보여줍니다.

For each professional role, the students show what and how they have learned and how they wish to improve.

학생들을 돕기 위해 각 역할에 대해 설명하는 설명서가 제공됩니다. 매뉴얼에는 또한 올해의 포괄적(글로벌) 목표, 학생들이 스스로에게 물어볼 수있는 가능한 질문, 문제가 되는 역량 분야에서의 향상정도를 문서화하는 데 사용할 수있는 잠재적 정보 출처 등이 포함되어 있습니다.

To aid the students in this, a manual is provided in which each role is explained. The manual also contains the global objectives of the year, possible questions the students may ask themselves and potential sources of information that may be used to document the advancement in the areas of competence in question, illustrated by examples.

상자 1을 설명하기 위해 보건 의료 종사자로서의 역할에 대한 요구 사항, 프로빙 질문 및 정보 출처 (부록 1)가 나와 있습니다.

To illustrate this Box 1 shows the requirements, probing questions and sources of information for the role as healthcare worker (Appendix 1).

박스 2는 개별 학생의 포트폴리오의 샘플 조각을 포함하고있다 (부록 2).

Box 2 contains a sample fragment from a portfolio from an individual student (Appendix 2).



성찰을 자극하기위한 포트폴리오의 효과적인 사용을위한 중요한 요소는 포트폴리오에 대한 다른 사람들과의 정기적 인 토론이다 (Wolf et al., 1995; Golberg et al., 1996)

A crucial factor for the effective use of portfolios aimed at stimulating reflection is regular discussion of the portfolio with others (Wolf et al., 1995; Golberg et al., 1996)

왕립 일반의 대학 (Royal College of General Practitioners)은 다음과 같은 세 가지 이유로 포트폴리오를 사용하여 학습자와 멘토 간의 협력을지지합니다 (RCGP, 1993). 

    • 첫째로, 멘토는 학생들이 학습 요구를 인식하고 학습 계획을 수립하도록 도와줍니다. 

    • 두번째, 멘토는 환자와 함께 일하는 실제적 측면뿐만 아니라 감정적 측면이 학습 과정의 일부가되도록 보장합니다. 

    • 멘토와 협력하는 세 번째 이유는 멘토가 포트폴리오 자료의 타당성을 검증 할 수 있다는 것입니다.

The Royal College of General Practitioners advocates cooperation between the learner and the mentor in working with portfolios for three reasons (RCGP, 1993). In the first place, the mentor assists the students in recognizing their learning needs and setting up a learning schedule. In the second place, the mentor ensures that not only the practical but also the emotional aspects of working with patients become part of the learning process. A third reason for working with mentors is that the mentor is able to validate the portfolio materials.

우리는 멘토링 시스템을 선택했습니다. 단일 멘토는 포트폴리오 개발에 20 명의 학생들을 지원하고 일반적인 pastoral 지도를 제공합니다. 1 년에 최소 2 회, 학생과 멘토가 개인 인터뷰, 진행 인터뷰 및 연말 인터뷰를 실시합니다.

We opted for a mentoring system. A single mentor provides support for 20 students in developing their portfolios and provides general pastoral guidance. At least twice a year, student and mentor conduct an individual interview, a progress interview and an end-of-year interview.

연말 평가의 경우, 멘토는 자기 학생의 포트폴리오를 평가하지 않습니다. 그는 코치 및 고문으로만 역할을 한다. 멘토의 책임은 포트폴리오를 감독하는 것 이상의 것입니다. 멘토는 일반적인 pastoral 기능을 가지고 있습니다.

For the end-of-year assessment, the mentor does not assess his/her own students’ portfolios. He/she serves as only coach and adviser. The mentor’s responsibility goes beyond supervising the portfolio: he/she also has a general pastoral function.



학생들에게 어떤 형태의 보상 (크레딧)없이 완전한 포트폴리오를 갖게하는 것이 결국에는 효과가없는 것으로 간주되었습니다. 반면 포트폴리오 완성은 통과의 목적으로 '시험 성과'가되는 것이 아닙니다. 이러한 이유로, 우리는 전체 평가 프로그램의 modest한 부분으로 포트폴리오를 선택했는데, 포트폴리오는 다음 학년으로 진급될 수 있도록 적절하게 수행되어야했습니다.

Having students complete portfolios without some form of reward (credits) was considered to be ineffective in the long run. On the other hand, portfolio completion was not to become a ‘test-achievement’ ritual for the purpose of passing. For this reason, we opted for the portfolio as a modest part of the entire assessment programme, which needed to be carried out properly, however, in order for the student to be promoted to the next year.

평가와 성찰이라는 두 가지 목표가 단일 포트폴리오에서 결합 될 수 있습니까? 포트폴리오가 평가되는 경우 학생들이 약점을 의도적으로 감출 가능성이 있습니다. 문헌에서 이를 때때로 "시험 목적을위한 포트폴리오의 부패"라고 부른다 (Huot, 1994). 이러한 부패는 종종 포트폴리오 평가의 신뢰성을 향상시키기 위해 채택 된 전략의 결과입니다.

Can two different goals—assessment and reflection—be combined in a single portfolio? There is a possibility that students choose not to show their weaknesses if the portfolio is also assessed. In the literature, this is sometimes referred to as “the corruption of portfolios for testing purposes” (Huot, 1994). Such corruption is often the result of strategies employed to improve the reliability of portfolio assessment.

상호 신뢰도 (inter-rater reliability)로 인식되는 신뢰도는 세 가지 전략으로 개선 될 수 있습니다 : 

    • 포트폴리오 표준화; 

    • 분석 기준을 사용하여 평가 목적화; 

    • 평가자의 수 증대. 

Reliability, perceived of as inter-rater reliability, may be improved by three strategies: portfolio standardization; assessment objectification by using analytical criteria; and increasing the number of assessors. 

처음 두 가지 전략은 포트폴리오의 기초가되는 철학과 맞지 않는다(at right angles). 원래 포트폴리오는 고유 한 개인 경험과 결합 된 진정한 자료에 근거하여보다 질적 인 결정을 내리기 위해 도입되었습니다 (Schulman, 1998). 포트폴리오 표준화와 신뢰도 향상을 목적으로 분석 기준을 사용하는 것은 다양한 authentic 상황에서 학생들의 개인적 학습경험을 묘사할 공간을 제한하기 때문에 타당성을 위협합니다. 

The first two strategies are at right angles with the philosophy underlying the portfolio. Originally, portfolios were introduced to make more qualitative decisions on the basis of authentic materials coupled to unique personal experience (Schulman, 1998). Portfolio standardization and the use of analytical criteria with the aim of improving reliability will threaten validity, because it limits the room for describing students’ personal learning experiences in different authentic situations. 

평가자 간 신뢰도를 높이기위한 세 번째 전략, 즉 평가자의 수를 늘리는 것은 이론상 효과적인 전략이다. 심지어 평가자 간 연계성이 낮을지라도 더 많은 평가자를 참여시켜 보상 할 수 있습니다. 그러나 대부분의 교육 기관에서이 전략은 너무 비용이 많이 들며, 특히 많은 수의 학생을 평가해야하는 경우에 특히 그렇습니다.

The third strategy for enhancing inter-rater reliability, i.e. increasing the number of assessors, is an effective strategy in theory. Even low inter-rater reliability may be compensated by involving more assessors. However, for most educational institutions this strategy is too expensive, especially if large numbers of students need to be assessed.

포트폴리오를 평가할 때 우리는 평가자가 '전문적인 판단'을 하게 되는, 전체적이고 질적인 접근법을 피할 수 없다 (Norman et al., 1991). 그러나 어느 정도 표준화가 도입 될 수 있습니다.

In assessing portfolios, we cannot avoid a more holistic and qualitative approach requiring a more ‘professional judgement’ on the part of the assessor (Norman et al., 1991). However, some degree of standardization may be introduced.

이를 달성하기 위해 평가 절차에 여러 포트폴리오 토론 시간을 도입했습니다 : 진도 인터뷰 및 멘토와 학생 간의 퇴사 인터뷰, 그리고 위원회의 포트폴리오 별 평가.

To attain this, we introduced multiple portfolio discussion moments in the assessment procedure: progress interviews and exit interviews between mentor and student, followed by a separate assessment of the portfolio by a committee.

평가 절차는 순차적으로 구성됩니다.

    • 포트폴리오의 품질을 결정하기가 어려울 경우, 평가위원회의 한 명 이상의 평가자가 절차에 관여합니다.

    • 멘토, 학생 및 / 또는 평가자가 포트폴리오에 표시된 성과 평가에 이의가없는 경우 추가 평가사가 참여하게됩니다.

    • 이어서 전체 평가위원회에서 포트폴리오에 대해 논의합니다.

    • 절차 시작시 멘토, 학생 및 평가자가 포트폴리오에 표시된 성과의 질에 동의한다면, 평가위원회의 한 구성원 만이 포트폴리오를 읽고 등급을 매기는데, '부족', '충분'또는 '장점이 있습니다.

The assessment procedure is organized sequentially: 

    • if it is difficult to determine the quality of the portfolio, more than one assessor from the assessment committee is involved in the procedure. 

    • If mentor, student and/or assessor disagree on the assessment of the performance shown in the portfolio, an additional assessor will be involved. 

    • Subsequently, the complete assessment committee discusses the portfolio. 

    • If at the start of the procedure mentor, student and assessor agree on the quality of the performance shown in the portfolio, only one member of the assessment committee reads and grades the portfolio: ‘insufficient’, ‘sufficient’ or ‘with merit’.

첫 번째 평가

A first evaluation

모든 학생들은 연구 초기 단계에서 포트폴리오를 구성할 수 있다고 답했습니다.

All students reported that they were capable of compiling a portfolio in the initial stage of their studies.

나는 우리가 포트폴리오를 일찍 시작하는 것은 괜찮다. 왜냐하면 그래야 익숙해 질 수 있기 때문입니다. (학생 5)

I think it is okay that we start with it [portfolio] so early, because then you can get used to it. (Student 5)

학생들은 자신의 진전에 대한 성찰에 대한 인센티브로서의 포트폴리오에 대한 긍정적 인 견해를 가지고있었습니다. 실제로 인터뷰 한 학생 중 95 %는 포트폴리오가 강점과 약점 분석을 수행하는 중요한 자극이라고 지적했습니다.

The students had a positive opinion of the portfolio acting as an incentive to reflection on their progress. Indeed, 95% of the students interviewed indicated that the portfolio was an important stimulus to carry out strengths and weaknesses analyses.

전체적으로 80 %의 학생들이 강점과 약점 분석을 도움이된다고 생각했습니다.

In all, 80% of the students regarded the strength and weaknesses analyses as helpful:

포트폴리오는 학생들이 행동을 재조정하는 데 체계적으로 노력하도록 권장했습니다. 87 %는 포트폴리오가 학습 목표를 수립하는 데 도움이된다는 사실을 관찰했습니다.

The portfolio therefore encouraged them to work systematically on readjusting their actions: 87% observed that the portfolio had helped them to formulate learning objectives.

포트폴리오의 구조는 기대에 부합하는 것으로 나타났습니다. 한편으로는 학생들에게 기대했던 것에 대한 명확한 그림을 제공하는 한편, 동시에 포트폴리오를 개인화 할 자유를 부여했습니다.

The structure of the portfolio proved to meet expectations: on the one hand, it gave the students a clear picture of what was expected of them, whereas it also gave them freedom to personalize their portfolio.

제시된 역할 중 하나로서 healthcare worker는 학생들이 이 분야에서 관련 실제적 경험이 거의 없었기 때문에 수행하기가 어려웠습니다.

One of the professional roles—that of healthcare worker— proved difficult to perform in practice, because the students had little relevant experience in this area.


초기 학부 의학 교육에서 포트폴리오를 도입 한 주된 이유는 학부 초기에 성찰 능력을 개발하는 것이 었습니다. 반사적 능력은 연습과 평생 학습에서 배우는 중요한 기술로 간주됩니다.

The main reason for the introduction of portfolios in early undergraduate medical training was to develop the reflective ability of early undergraduate students. Reflective ability is seen as an important skill to learn from practice and for lifelong learning.

포트폴리오에 관한 문학은 포트폴리오 효과성에 기여하는 요소가 

  • 지적인 멘토 시스템, 

  • 명확한 포트폴리오 구조, 

  • 적절한 평가 절차 

  • 기에 모호하지 않은 포트폴리오 인트로

...을 포함한다고 제안합니다. 우리 포트폴리오의 첫 번째 경험에 따르면 이러한 요소가 실제로 중요합니다.

Literature on portfolios suggests that the factors contributing to portfolio effectiveness include 

  • a supportive mentor system, 

  • clear portfolio structure, 

  • an appropriate assessment procedure and 

  • early and unambiguous portfolio introduction. 

The first experiences with our portfolio suggest that these factors are indeed crucial.

성찰 능력에 대한 포트폴리오 효과에 대한 연구는 종종 실망스러운 결과를 나타낸다 (Wade & Yarbourgh, 1996; Beijaard 외., 2002). 많은 경우 포트폴리오의 목적이 학생들에게 불분명 해 보입니다. 결과적으로 포트폴리오는 종종 피상적이 된다. 즉, 학생들은 포트폴리오를 반영하고 컴파일하는 방법을 배워야합니다. 교사의 지원은이 학습 과정에 필수적입니다.

studies of the effect of portfolios on reflective ability often show disappointing results (Wade & Yarbourgh, 1996; Beijaard et al., 2002). In many cases, the purpose of portfolios seems unclear to students. As a result, portfolios are often superficial. In other words, students have to learn how to reflect and compile a portfolio. Teacher support is essential to this learning process.

Practice points

Factors contributing to portfolio effectiveness   include:

  • 학생을 지도하는 지지적 멘토 제도;

  • 학생들로 하여금 포트폴리오의 내용과 형태를 결정할 수있게하는 명확한 포트폴리오 구조;

  • 학생 자기 성찰을 중심으로 포트폴리오 구성;

  • 초기 및 모호하지 않은 포트폴리오 도입;

  • 성찰을 방해하지 않는 평가 절차.

  • supportive academic mentor system to coach the   student;

  • clear portfolio structure allowing students to deter  mine content and form of the portfolio;

  • organization of the portfolio around student self  reflection;

  • early and unambiguous portfolio introduction;  

  • assessment procedure that does not hamper reflection.

 2003 Jan;25(1):18-23.

Use of portfolios in early undergraduate medical training.

Author information

Department of Educational Development and Research, Faculty of Medicine, Maastricht University, The Netherlands. e.driessen@educ.unimaas.nl


The ability to reflect on one's own action is seen as an important skill for a doctor. A thorough introduction of the portfolio planned in the earlystages of their studies seems to be the way to train medical students in reflection. This article describes the use of portfolios in earlyundergraduate medical training. The literature on portfolios suggests three aspects that are crucial for the effectiveness of portfolios: structure, coaching and assessment. The portfolio system was designed by transposing the experience with portfolio systems outside and inside medical training to a situation of first-year medical students. During the academic year 2001-02 242 first-year medical students compiled a portfolio. Student experience was collected by semi-structured interviews. The majority of students were of the opinion that analysing one's competences in a portfolio was instructive and meaningful. With regard to learning how to reflect and recognize learning needs, however, mentor coaching proved to be necessary. The results thus far show that the portfolio is a worthwhile addition to existing assessment and learning tools.


평가의 문화 바꾸기: 총괄평가 패러다임의 우위성(BMC Med Educ, 2017)

Changing the culture of assessment: the dominance of the summative assessment paradigm

Christopher J. Harrison1* , Karen D. Könings2, Lambert W. T. Schuwirth3, Valerie Wass1

and Cees P. M. van der Vleuten2



평가 프로그램의 설계자는 프로그램 방식 평가의 이론적 개념에 이끌릴 수 있지만, 현실에서의 구현은 어려운 것으로보고되기 때문에 평가 문화의 급진적인 변화 진행을 주저 할 수 있습니다.

Although designers of assessment programmes may be attracted by the theoretical concepts of programmatic assessment, they may be hesitant to proceed with a radical change of assessment culture because of the reported difficulties in implementation.

예를 들어, 문제 기반 학습 (PBL)과 같은 구성주의적 접근법이 지난 30 년 동안 점차 대중화되었지만, 그 변화는 종종 논란의 여지가 있어왔으며, 모든 임상 교사들에게 보편적으로 받아들여지지는 않았다 [9, 10] .

For example, although constructivist approaches to learning, such as problem-based learning (PBL), have gradually become more popular over the last 30 years, the change has often been controversial and not universally accepted by clinical teachers in particular [9, 10].

조직의 문화를 수정하는 데 따르는 어려움은 엄청난데, 조직이 급격한 변화에 내재적으로 내성을 갖기 때문이다. 조직 변화에 사회 문화적 관점을 적용한 Johnson [11]에 따르면, 이러한 관성의 원인 중 하나는 변화에 대한 책임을 갖는 관리자가 조직 문화에 대한 공통적 핵심 신념과 가정을 공유하기 때문입니다. Johnson은 이것을 패러다임으로 정의합니다. 가정assumption이란 [당연한 것으로 간주되는 조직의 가치]이기 때문에 일반적으로 암묵적입니다. 모든 잠재적 변화는 이 '패러다임'이라는 필터를 통해 보여지는 경향이 있습니다.

The challenges involved in modifying an organisation’s culture are immense, as organisations are typically inherently resistant to radical change. According to Johnson [11], who applies a socio-cultural perspective to organisational change, one of the reasons for this inertia is because the managers responsible for change share common core underlying beliefs and assumptions about the organisational culture. Johnson defines this as a paradigm. The assumptions are typically implicit as they are the organisation’s values which are taken for granted. Any potential change tends to be viewed through the filter of the paradigm.

이 신념의 패러다임은 그 자체로 조직의 더 넓은 '문화적 그물'의 일부입니다. Johnson [11, 12]은 문화적 그물을 구성하는 많은 요소를 정의합니다.

  • 조직의 권력 구조는 핵심 패러다임과 밀접한 관련이 있습니다. 조직의 가장 강력한 구성원이 핵심 가정과 가장 밀접하게 관련되어 있기 때문입니다.

  • 공식 및 비공식 조직 구조는 권력 구조를 반영하는 경향이 있으며, 특정 관계 또는 구조가 조직 내에서 특히 중요하다는 것을 확인시켜준다.

  • 조직은 일반적으로 구성원이 따르는 많은 의식과 루틴을 갖고 있으며, 대부분의 사람들은 특별한 고민 없이 이를 따른다.

  • 이야기(서사)는 조직을 통해 전수되는relay down 경우가 많으며, 조직의 역사에서 중요한 사건과 사람들을 상기시킵니다. 이것들은 조직이 가치롭게 여기는 것이 무엇인지를 보여주는 역할을합니다.

  • 마찬가지로 기호 역시 조직의 가치에 대한 중요한 통찰력을 제공 할 수 있습니다. 기호는 로고와 같이 단순한 형태일 수도 있지만, "지정 주차공간"과 같은 권력의 표시자기이도 하다.

  • 조직은 또한 특정 측면에서 진행 상황을 모니터링하는 공식적인 통제 시스템을 갖추고 있으며, 이를 통해 관심을 갖는 것이 무엇인지를 확인시켜준다.

This paradigm of beliefs is itself part of a wider ‘cultural web’ of an organisation. Johnson [11, 12] defines a number of elements which make up the cultural web. 

  • The power structures of an organisation are often closely linked to the paradigm, as the most powerful members of the organisation are likely to be most closely associated with the core assumptions. 

  • The formal and informal organisational structures tend to reflect power structures and ensure that certain relationships or structures are particularly valued within the organisation. 

  • Organisations typically adopt a number of rituals and routines that members follow, often without thinking. 

  • Stories are often relayed down through an organisation, recalling significant events and people from the organisation’s history. These serve as demonstrations of what the organisation values. 

  • Similarly, symbols can provide important insights into an organisation’s values; at their simplest, symbols may be logos, but they can also be indicators of power, such as reserved car-parking spaces. 

  • Organisations also have formal control systems which monitor progress in certain aspects and therefore ensure where attention is focussed.

전반적으로, 패러다임과 더 넓은 문화적 그물 사이의 상호 작용은 "이것이 여기서 일이 돌아가는 방식"[11]이라는 가정에 이르게한다. 관리자가 변화에 대한 압박에 직면하면, 일반적으로는 (변화의 방향이) 조직의 일반적인 패러다임 및 더 넓은 문화적 그물과 일치하는 방식으로 재설계 할 것입니다.

Overall the interaction between the paradigm and the wider cultural web leads to an assumption that “this is the way things are done around here” [11]. If managers are faced with pressure to change, they will typically redesign in a way which is consistent with the prevailing paradigm and the wider cultural web of the organisation.

Johnson [11]은보다 급진적 인 변화가 고려되기 전에 문화적 그물을 명시화해야 한다고 주장한다.

Johnson [11] argues that the cultural web needs to be made explicit before more radical change can be contemplated.

일단 조직 문화를 이해하고 나면, 성공적인 변화는 다른 요소들에 달려있다. 특히 개인게 미치는 결과는 신중하게 고려해야합니다. 문화를 바꾸는 것만으로 개인의 행동을 바꿀 수는 없다 [13]. 대신, 개인이 개인적으로 참여할 수 있도록 '심리적으로 안전한' 분위기를 조성해야합니다. 그들은 새로운 문화에 내재되어있는 신념과 가치를 스스로 평가할 수 있어야하며, 개인으로서의 어떠한 결과에 직면할 것인가를 알아볼 수 있어야 한다.

Once an organisational culture has been understood, successful change also depends on other factors [13]. In particular, the consequences for the individual must be considered carefully. It is not possible to change an individual’s behaviour simply by changing the culture [13]. Instead, a climate of ‘psychological safety’ needs to be created in order to allow individuals to feel personally involved. They need to be able to evaluate for themselves the beliefs and values inherent in the new culture, and to examine the consequences for themselves as an individual [13].

교육자들은 때때로 변화 관리 문건에서 이미 확인된 이러한 증거를 마치 모르는 것처럼 행동하는 경향이있다. 예를 들면, 학생의 관점을 포함시킴으로써 교육과정 재설계를 개선할 수 있다는 증거에도 불구하고, 교육적 재설계에서 학생을 파트너로 참여시키는 것이 중요하다는 사실은 종종 간과됩니다. 대신, 학생들의 의견은 종종 [교사의 질에 대한 평가]를 고려하는 것으로 끝나고 만다. 학습 환경을 재설계 할 때 학생들의 관점을 포함시키기 못하면 학생들 사이에서 소외감과 실망감이 발생하고, 결국 동기 유발에 부정적인 영향을 미친다.

Educationalists have sometimes tended to act as if they were unaware of this evidence from the change management literature [14]. The importance of involving students as partners within instructional redesign is often overlooked despite evidence that incorporating students’ perceptions can improve redesign [15]. Instead, students’ input is frequently limited to evaluations about the quality of teachers. Failure to incorporate students’ perceptions when redesigning a learning environment leads to feelings of alienation and disempowerment among students, with resultant adverse effects on motivation [16].

교사는 교육 혁신을 설계 할 때 고려해야 할 중요한 이해 관계자이며, 이들이 실제 학습 환경을 재설계 할 것으로 기대하면서도, (교육) 설계 프로세스에 완전히 참여하지 못하곤 한다디자이너와 교사 간의 상호작용의 작용 부족으로 인해, 교사는 지원을 받지 못하는 상태에서 이상적이지 못한 맥락 속에 교육 혁신을 구현할 것만 요구받곤 한다[17].

Teachers are also important stakeholders to be considered when designing instructional innovations, yet they are often not fully involved in the design process, even though they are expected to enact the redesigned learning environment in practice [17]. A lack of interaction between designers and teachers can leave the latter group unsupported while expected to implement educational innovations in contexts which may be less than ideal [17].

이미 과거에 새로운 평가 방법의 탑다운 방식의 구현이 교사나 학생의 행동에 원하는 변화를 가져 오지 못했습니다 [18].

Top-down implementation of new assessment practices has failed in the past to bring about a desired change in the behaviour of teachers or students [18].

학생, 교사 및 교수 설계자 간의보다 긴밀한 협조를 돕기 위한 COOP (Combination Of Perspective) 모델은 다양한 이해 관계자를 시각화하는 방법으로 제안되었습니다 [19]. 학습 환경을 (재) 설계 할 때 여러 이해 관계자의 인식을 통합하는이 프로세스는 보통 참여적 설계 (participatory design) [20]라고 불린다. 참여적 디자인이 학생들이 설계 프로세스를 완전히 제어해야한다는 것을 의미하지는 않는다. 학생들이 최적화된 학습 환경을 설계 할 수있는 전문 지식을 갖고 있지 않기 때문이다. 대신 참여적 설계란 교사와 교수설계자가 전문 기술을 사용하는 설계 프로세스에서 학생도 파트너가되어야한다고 제안됩니다.

To aid a much closer collaboration between students, teachers and instructional designers, the Combination Of-Perspectives (COOP) model has been proposed as a way of visualising the different stakeholders involved [19]. This process of incorporating multiple stakeholders’ perceptions when (re)designing a learning environment is usually referred to as participatory design [20]. Participatory design does not imply that students should have full control over the design process as they do not necessarily have the expertise to design an environment which is optimal for their learning. Instead it is proposed that they should be partners in a design process that also uses the expertise of teachers and instructional designers.

그러나 이해 관계자의 관점을 인정하는 것 만으로 변화가 성공적으로 진행될 수 있다고 가정하는 것 역시 너무 단순하다. 변화가 어려운 이유 중 하나는 이해관계자의 인식이란 단순한 아이디어 이상의 것이기 때문이다. 대신 그들은 그들 자신의 개인적 인식론epistemologies을 대표한다 [22]. 개인적 인식론이란 개개인의 직관적이면서 확고하게 잡힌 신념으로서, 우리 모두가 우리 주변의 세계에 대해 인식론을 가지고 있습니다. 환자에게 더 건강한 생활 방식을 채택하도록 설득하려고 했던 경험이 있는 의사라면, 강한 의학적 증거에도 불구하고 이와 직접적으로 충돌하는 개인적 인식론의 힘이 있으며, 이것이 얼마나 잘 바뀌지 않는 것인지 잘 알 것이다. 즉, 의사들은 종종 임상연구에서 쌓인 근거가 있음에도 불구하고, 이것이 환자의 근본적인 신념과 원활히 드러맞지 않다는 이유로 그 근거를 일상 진료업무에 반영하지 못하곤 한다

It would, however, be simplistic to assume that change can proceed successfully once stakeholders’ perceptions are acknowledged. One reason why change is so difficult is that many of the stakeholders’ perceptions are much more than mere ideas; instead they represent their own personal epistemologies [22]. These are intuitive but firmly-held beliefs which we all hold about the world around us. Any clinician who has tried to convince a patient to adopt a healthier lifestyle will recognise the strength, and often fixed nature, of personal epistemologies, which are frequently in direct conflict with strong medical evidence [23]. Similarly, clinicians themselves often fail to incorporate evidence from research trials into their daily practice because the evidence does not sit comfortably with their underlying beliefs [24].

서로 다른 평가 문화에서 피드백에 대한 수용성에 대한 이전의 연구는 현재의 평가 및 피드백 관행에 관한 학생들의 인식론뿐만 아니라 교사의 신념에 대한 관점도 제공했다 [25, 26].

The previous studies about receptivity to feedback in different assessment cultures provided some evidence about students’ epistemologies regarding current assessment and feedback practices, as well as their perceptions about their teachers’ beliefs about these matters [25, 26].

조직 문화의 변화를 가져 오는 것이 어렵기 때문이, 종종 점진적 변화가 선호되곤 한다(11). 평가 프로그램을 '학습의 평가AOL'에 기초한 평가 프로그램에서 '학습을 위한 평가AFL'원칙을 포함하는 평가 프로그램으로 전환하기 위해서는 여러 단계가 필요합니다. 중요한 초기 단계는 학생들이 평가후 피드백을 더 많이 활용할 수 있도록하는 것입니다.

Given the difficulty in bringing about organisational culture change, incremental change is often preferred [11]. There are a number of steps which would need to occur to convert an assessment programme from one based on ‘assessment of learning’ to one which incorporates ‘assessment for learning’ principles. A key initial step would be to ensure that students make more use of post-assessment feedback.

따라서 우리는 조직이 학습 문화에 대한 평가로 옮겨가는 데 도움이되는 초기 변화를 채택 할 준비가 된 기관을 모색하고 싶었습니다.

We therefore wanted to explore an institution’s readiness to adopt initial changes which would help an organisation move towards an assessment for learning culture.



The study took place at Keele University School of Medicine, which has approximately 130 students per year. It is one of the newest British medical schools, graduating its first cohort of doctors in 2012. 

    • Progression through, and exit from, the course relied on a series of summative assessments. There is a focus on the provision of feedback to all students following highstakes assessments, although there is no obligation for students to make use of the feedback. 

    • The school has a tradition of respecting the student voice in a number of ways. Student representatives serve on all the major school committees (including for assessments). They also provide feedback about the course on a regular basis, via online surveys and face-to-face interactive group meetings with faculty members. At these meetings, students learn what has changed in the course as a result of their feedback. They also make suggestions for further changes.

Participatory redesign meeting

We conducted a small-group meeting based on the principles of participatory design. Participants were purposively sampled to recruit 

    • five medical students (from Years 3 to 5 of the programme), 

    • two clinical teachers (with responsibility for Years 3 to 5) who are also experienced OSCE assessors and 

    • two senior members of the faculty, who have responsibility for overall curriculum design (and who were known to already have an awareness of the broad concepts of ‘assessment for learning’). 

By aiming to have more than half the participants as students, it was hoped to minimise hierarchical power issues within the group. 

    • Potential students were approached by members of the School’s academic and administrative team (not involved in the research) solely on the basis of their likely confidence to cope in a meeting with senior members of faculty. 

    • Previous involvement in faculty structures or curriculum development was not considered in the recruitment process.

A joint meeting was held to include all participants. 

    • The lead researcher provided a short presentation explaining why the educational research evidence would support a change in assessment processes to ensure that feedback was used, along with evidence demonstrating the difficulties in ensuring that students make use of the feedback. 

    • The problem with feedback following OSCEs was used as a concrete example, but the participants were encouraged to consider the wider problem of feedback following assessments as a whole. 

    • They were challenged to use blue sky thinking to design radical solutions for this problem. 

      • Participants spent some time alone writing their own ideas on Post-it notes. 

      • They then formed pairs of a clinician or faculty member and student (or in one case a trio comprising two students and a clinician) to share ideas and develop agreed priorities. 

      • Participants then formed mixed groups of 4 or 5 to further develop ideas and priorities for change. 

      • The group then reformed as a whole to compare proposed solutions and discuss them in more detail. 

      • Once they had come up with their suggestions, the group members were then encouraged to critically challenge their proposals in order to explore the underlying factors which would support (or hinder) successful practical implementation of the assessment change. 

    • The meeting lasted approximately two and a half hours.

개별 후속 인터뷰

Individual follow-up interviews

자료 수집

Data collection

    • The post-its completed by individuals and pairs were collected and transcribed. 

    • Those completed by individuals were labelled as being written by students or clinicians (to incorporate both faculty members and clinical teachers). 

    • This was done to achieve sufficient anonymization

    • The outputs from the sub-groups were written on flip charts to facilitate sharing with the whole group. 

    • These were also transcribed. 

    • The participatory redesign meeting as a whole, and the individual meetings, were audio-recorded and transcribed. 

    • These were supplemented by field notes collected by an experienced observer, who had a specific remit to observe interactions between group members.

자료 분석 및 해석

Data analysis and interpretation

Data were analysed from a sociocultural perspective, using Johnson’s cultural web as a lens [11], in order to understand aspects of the organisational culture as well as individual beliefs. 

    • Although the proposed changes to the assessment culture were interesting in themselves, the interaction between participants, and in particular the relative influence of students in moulding the proposals, was of specific interest. 

    • The transcripts and field notes from the group meeting were analysed carefully to understand how the proposed changes were developed (or blocked) within the group. 

    • We aimed to identify collective and personal epistemologies held by the group as a whole and by individual members.

Coding of all data was performed by the lead researcher. 

    • In order to validate emerging concepts, the participatory design meeting transcript was also thoroughly read by a second researcher, while the individual interview transcripts were analysed by a third researcher. 

    • Regular videoconference discussions with the wider research team helped modify the coding and the conceptual analysis arising from



평가후 피드백을 더 잘 활용하기 위한 제안

Proposals to enable greater use of post-assessment feedback



현재의 평가가 종종 authentic하지 못하고, 의료 커리어에 필요한 속성을 발견하지 못했다는 광범위한 합의가있었습니다.

There was broad agreement that current assessments, were often inauthentic and failed to detect the attributes that will be needed for a medical career:

학생들로부터 임상 근무지 학습과의 연계가 평가에 반영되지 않은 것에 대한 광범위한 분노가있었습니다.

There was widespread resentment from students that engagement with clinical workplace learning failed to be reflected in assessment performances:

병동에는 가지도 않은 다음에 시험을 치른 학생들과 이야기를 나눠보면, 그들은 OSCE에서 더 잘했고 "어떻게 이럴 수 있지?"라고 생각했다. 나는 일년 내내 slaved했기 때문이다. '학생 3, 그룹 회의.

I think definitely you really do notice the people who don’t go to wards and then you talk to them after exams and they did better in the OSCEs and you think, ‘How did that work? I slaved all year.’ Student 3, group meeting.

학생들은 최후의 피상적 학습을 하면 시험에서 과정에서 보상을 받았지만, 이것은 지속적인 근무지 학습을 위한 기술을 갖추게 해주지는 못했다.

The perception was that students were able to do last minute superficial learning which was rewarded by the assessment processes but which failed to equip them with skills for ongoing workplace learning:

시간 제약으로 학생들은 자신의 능력을 충분히 발휘할 수 없다는 좌절감을 갖게되었습니다.

Time constraints left students frustrated that they were unable to adequately demonstrate their abilities:

시간에 대한 제한은 또한 학생들을 구별하는 평가자의 노력도 좌절 시켰습니다.

Restrictions on time also frustrated examiners’ efforts to differentiate between students:

OSCE 형식으로 평가할 수있는 시나리오는 임상 작업장의 현실을 반영하지 못했습니다. 이 문제를 해결하려는 시도는 어색했다.

The scenarios that could be assessed in an OSCE format failed to reflect the realities of the clinical workplace; attempts to address this were clumsy:

OSCE 스테이션에서 내가 한 일 중 대부분은 나 혼자 하는 일이지만, 실제로 의료현장에서 나는 팀에 속해있다. 그리고 이러한 팀워크가 OSCE 스테이션에서 광범위하게 평가되는 것 같지는 않다. 임상 교사 2, 그룹 회의.

In OSCE stations it tends to be you on your own whereas most of the work I’ve ever done is being part of a team. And that doesn’t seem to be assessed very widely in OSCE stations, the team working. Clinical teacher 2, group meeting.

진실성이 결여됨으로 인해서 OSCE후에 받은 피드백은 평가절하되었다.

The lack of authenticity led to feedback from OSCEs being discounted:

그러나 이러한 한계에도 불구하고 평가를 보다 authentic하게 만드는 방법에 대한 합의는 이루어지지 않았습니다. 평가를 재설계하려는 시도는 급진적이기보다는 사소한 것들이 었습니다.

However, there was no consensus about how to make the assessments more authentic. Attempts to redesign were typically minor rather than radical:

제안에는 OSCE 스테이션의 시간 연장, 

각 임상 로테이션 말미에 긴 케이스로 돌아가는 것, 

근무지 기반 평가를보다 엄격하고 객관적인 것으로 만드는 것 등이 포함되었다. 

OSCE 스테이션의 시간을 늘리는 것은 지식과 기술 평가의보다 나은 통합을 지원하는 것으로 생각되었다.

Suggestions considered included lengthening OSCE stations, a return to long cases at the end of each clinical attachments, or a desire to make workplace-based assessments more rigorous and ‘objective’. Increasing the time for OSCE stations was thought to support better integration of knowledge and skills assessment.

또한 평가전 근무지기반 학습을 지원할 것으로 생각되었습니다.

It was also felt likely to support pre-assessment workplace-based learning:

그러나 [더 높은 authenticity 필요성]과 [공정성을 보장하기 위해 표준화 및 신뢰성을 유지 또는 강화해야한다는 필요성] 사이에는 해결되지 않은 긴장이 있었습니다.

However, there was an unresolved tension between the need for greater authenticity and the belief in the need to maintain or enhance standardisation and reliability to ensure fairness:

나는 긴 경우가 표준화하기가 훨씬 더 어렵다고 생각한다. 그러나 병동에 들어갔을 때 그들이 실제로 병상에 닿는 것은 처음으로 사람들을 만나는 것입니다. 병력청취를 충분히 하고, 충분한 진찰을하고, 결과로 무언가를 생각해냅니다. 이런 의미에서 long case가 그들이 할 일을 더 잘 반영할 것이다. 그러나 현실에서는 단지 8 분 동안 업무의 작은 한 가지 요소만 하도록 요구받지 않을 것입니다.

I guess the long cases are much harder to standardise . But what they’re actually going to bedoing when they hit the wards is see people for the first time, taking a full history, doing a full examination, trying to come up with something as a result of it aren’t they. So in that sense a long case is more reflective of what they’re going to do, they’re not going to be asked to just go in and do one tiny little bit of somebody for eight minutes.

또한 현재의 평가 형식을 버리는 것의 명백한 위험이 있습니다. 학습자가 나중에 시험을 치르는 데 도움이되는 준비 였기 때문입니다.

There were also apparent dangers in abandoning current assessment formats as they were seen as helpful preparation for examinations later in the learners’ careers:

성적 없는 피드백

Feedback without grades

성적없이 피드백을 제공하자는 한 학생의 제안은 상당한 그룹 토의를 야기했습니다. 이러한 방식은 내재적 동기를 강화시키는 방법으로 옹호되었다.

A single student’s suggestion of providing feedback without grades generated significant group discussion. It was advocated as a way of enhancing intrinsic motivation:

그러나 많은 사람들은 이것이 피드백에 대한 수용성에 악영향을 미칠 것이며, 학생은 평가를 통과했는지 여부를 판단하기 위해 내러티브 피드백을 숫자로 변환하게 될 것이라고 생각했습니다.

However, many felt that this would result in them converting the narrative feedback into a numerical mark, in order to determine whether or not they had passed the assessment, with adverse effects on their receptivity to feedback:

서술 피드백과 수치 점수 사이에 불일치가 있기 때문에 이 접근법은 misleading할 가능성이 있다.

This approach could be potentially misleading as there were mismatches between the narrative feedback and numerical marks:

서술형 피드백과 수치 점수 사이의 불일치는 특히 수행능력이 합격선을 갓 넘는 수준인 학생의 경우에 더 문제가 된다. 이러한 학생들에 대해서 평가자는 (더 중요한 문제로 여겨지는) 점수에 우선적으로 초점을 맞추게 되며, 피드백은 부차적인 문제가 된다.

The mismatch was exacerbated by a focus on the pass-fail mark, especially for those students whose performance was only just satisfactory. Examiners needed to focus primarily on the mark, which was seen as the more important issue, with feedback of secondary priority.

경계선에있는 사람들, 당신은 그들에 대해 오랜 시간 고민하게 된다. 그러고나면 피드백을 줄 시간이 몇 초 밖에 남지 않아서, 정작 피드백이 필요한 사람들에게 제공되는 피드백이 엉망이 된다. 임상 교사 2, 그룹 회의.

The ones who are borderline, you’re fretting about them and then you’ve only got a few seconds to give the feedback and so it messes up the feedback to those who particularly need it. Clinical teacher 2, group meeting.

성적을 부여하지 않는 것은 평가의 기본 목적과 양립 할 수없는 것으로 여겨졌습니다.

Failure to award grades was seen as incompatible with one of the fundamental purposes of assessments:

성적은 (학생들에게) 명확성과 확신을 주었습니다.

Grades provided clarity and reassurance:

나는 성적을 통해서 내 위치가 어디이며, 내가 잘 하고 있는지에 대한 확고한 정보를 얻는다. 그리고 성적은 학생들에게 훨씬 더 이해하기 직관적이다.

I think they give you some security in knowing that you’re doing well and where you’re at. And I think grades are a lot easier to process in student’s mind

근본적으로, 성적 없이 피드백만 제공하는 것을 뒷받침하는 근거에 대한 믿음이 부족했습니다.

More fundamentally, there was a lack of belief in the evidence underpinning the provision of feedback without grades:

나는 피드백이 성적 없이는 더 효과적이라는 합리적으로 좋은 증거가 있음을 알고 있지만, 사실 잘 믿기지 않는다.

I know that there’s reasonably good evidence that feedback is more effective without the grades but I can’t quite believe it.



멘토링의 이론적 이점에 관해 많은 논의가있었습니다. 토론 내용은 주로 장기간의 지지적 코칭보다는 일대일 사후 시험 피드백 (미래 시험에서 더 잘하는 방법)에 주로 집중되었습니다. 멘토링은 학생들이 피드백에 의미있게 참여하도록 유도하는 방법으로 간주되었습니다.

There was much discussion about the theoretical benefit of some form of mentoring. The discussion concentrated mostly on one-to-one post-exam feedback (how to do better in future exams) rather than long-term supportive coaching. Mentoring was seen as a way of encouraging students to engage meaningfully with the feedback.

나는 누군가와 이야기를 나눔으로써 피드백을 조금 더 이성적으로 생각해볼 수 있다고 생각합니다. 왜냐하면 나쁜 피드백을 받으면 우선은 좀 우울해지기 때문입니다.

I think talking to someone can first of all make you think about it more rationally, because if you get bad feedback it can just seem a bit oppressive.

멘토링을 도입하는 것에 관한 많은 어려움이 확인되었습니다. 멘토링의 시기는 사후 평가 피드백을받은 직후면서 동시에 그 길이는 의미가 있을만큼 길어야 했습니다. 학생들은 진료 스케줄 때문이 이런 것은 실현되기 어려울 것이라고 인식했습니다.

Many barriers to successful implementation were identified. The timing of any mentoring needed to be soon after receiving post-assessment feedback, but also needed to be long enough to be meaningful. Students recognised that clinical service commitments meant this would be unlikely to be achievable.

적합한 멘토는 평가 요구 사항을 잘 알고있는 사람으로 보았으며, 반드시 학생과 지속적인 관계가 있을 필요가 있다고 생각되진 않았다.

A suitable mentor was seen as someone who was familiar with the requirements for the assessments, not necessarily one with an ongoing relationship with the student.

그들이 반드시 우리를 잘 알아야 할 필요가 있는 것은 아니다. 그보다 멘토는 시험 시스템을 알아야하고, 시험에서 다루는 여러 분야에 능숙하여 통합적이어야 한다. 학생 3, 개별 면접.

No they don’t have to know us at all they just have to know the exam system and be rounded enough to be familiar with all areas of the exam possibly. Student 3, individual interview.

[자신의 영역에서 신뢰할 수있는 피드백을 줄 수있는 세부전문가]와 [평가의 모든 측면을보다 광범위하게 지원할 수 있는 교사]는 서로 긴장 관계에 있었습니다. 어떤 경우에는 세부전문가의 의견이 더 귀중 해 보였습니다.

A tension existed between having a specialist who could give credible feedback in their own area versus a tutor who could help more broadly with all aspects of assessment. On the one hand feedback from a specialist was seen as more valuable:

반대로 전문가의 피드백은 평가 준비에 방해가 될 수 있습니다.

In contrast, feedback from specialists could impair preparation for assessments:

학생들과 충분한 시간을 보내기에 충분한 멘토를 찾으려면 조직 문화에 커다란 변화가 필요했습니다.

The challenges involved in finding enough mentors to spend enough time with students needed a huge change in organisational culture:

그것을 극복하려면, 의대 교수가 가진 우선 순위와 의대 학교 문화의 근본적인 변화가 있어야 할 것입니다. 교수진 2, 그룹 회의.

I think in terms of overcoming it, it would mean a fundamental shift in the culture of a medical school faculty and in the priorities that faculty had. Faculty member 2, group meeting.

그러한 변화가 인기가 있겠지만, 임상 진료능력이 아니라 평가에서 잘 하도록 향상시키는 것이 주요 목적이라면 그러한 목적의 문화 변화는 가치있다고 여겨지지 않았습니다.

While there was recognition that such a change would be popular, it was not thought to be worth the culture change if the main aim was to improve assessment performance rather than clinical practice:

당신이 시험에서 더 잘할 수 만드는 것에 목적을 둔다면 나는 거기에 의문의 여지가 있다고 생각합니다. 그러나 실제로 그 피드백의 결과로 임상 실습에서 더 잘 수행한다면, 그 주장은 설득력이 있을 것입니다.

If it’s just so that you can do better in exams I think that has to be questioned. But if actually you perform better in clinical practice as a result of that feedback then the argument for me would be compelling.

타협안은 멘토링 제공을 자발적 활동으로 만들거나, 특정 학년 그룹만을 목표로 삼는 것이 있었다:

Compromises considered making the mentoring available on a voluntary basis or targeting certain year groups:

그것에 대해 조금 생각해 보았을 때, 5 년 동안 그것을 수행하는 물류는 매우 어려울 것이라고 생각합니다. 대신 5년 동안 두 번씩 이런 경험을 쌓게 해주는 것은 괜찮을 수 있다. 교수진 2, 개별 면접.

Having thought about it a bit, the logistics of doing it for all five years, I think, would make it very hard . It may be that that each student has thissort of experience twice during their five years. Faculty member 2, individual interview.

결국 popular하더라도 이러한 변화는 쉽게 구현 될 수 없을 것이라는 것이 합의점이었다.

The consensus was that, while popular, this change could not easily be practically implemented:

평가 재설계에 대한 개인적, 집단적 신념

The influence of personal and collective beliefs on assessment redesign

그룹 토의와 개별 인터뷰에서 총괄평가의 패러다임이 지배적 요소였다. 참가자의 사전 평가 경험은 재설계 제안에 영향을 미쳤습니다. 그룹 내에서, 더 많은 영향력을 행사하는 선임 멤버들과의 위계구조의 증거가 확인되었다.

Within both the group discussion and the individual interviews, the summative paradigm was a dominant factor. Participants’ prior experiences of assessment influenced redesign proposals. Within the group, there was evidence of a hierarchy with senior members exerting more influence.

총괄평가 패러다임이 대세

The summative paradigm was dominant

참가자들이 드러낸 신념의 대부분은 총괄 평가 패러다임에 확고하게 뿌리를두고 있습니다. 토론의 주요 내용은 좋은 의사가 되는 것 보다는, 평가 장애물을 극복해야 할 필요성으로 보는 관점이 지배적이었습니다. 평가의 주안점은 pass-fail을 구분하는 것과 unsafe한 학생들이 의사 자격을 얻지 못하도록 방지해야한다는 것입니다.

Most of the beliefs expressed were firmly rooted within the summative assessment paradigm. Discussions were dominated by the need to get through assessment hurdles, rather than becoming a good doctor. The primary focus of assessment was the pass-fail mark and the need to prevent unsafe students qualifying as doctors:

이 패러다임에는 [인식된 객관성] 또는 [인식된 엄격함]의 한 가지 형태로서 숫자 및 성적의 필요성에 대한 믿음이 깔려있었다. 평가 모델이 엄격함과 객관성을 잃는 것으로 보이면 변화에 ​​부정적인 태도가 유발되었다. 이 패러다임 내에서 피드백의 목적은 주로 학생이 이후 이어지는 평가에서 더 잘 수행하도록 돕는 것 또는 점수의 정확성을 확인할 수있는 기회를 더 많이 제공하는 것이 었습니다.

The paradigm included a belief in the need for numbers/ grades as a form of perceived objectivity or rigour. There were negative attitudes to changes to assessment models if this rigour and objectivity were to be lost. Within this paradigm, the aim of the feedback was principally that it should help the student do better in future assessments, or allow more chance to check on the accuracy of the marking.

과거 평가경험의 영향

Influence of prior assessment experience

기존 평가 및 피드백 경험은 제안 된 변경 사항을 검토하는 또 다른 필터 역할을했습니다. 참가자들은 종종 평가에 대한 자신의 개인적 이야기를 인용했습니다. 이들은 전형적으로 총괄 평가 프레임 워크내에서 작동했기 때문에, 그들은 총괄 패러다임을 한층 강화하는 역할을 수행했다. 예를 들어, 평가에서 보다 나은 authenticity에 대한 논의는 결국 표준화의 필요성에 대한 논의로 되돌아갔습니다.

Prior experience of assessment and feedback, acted as another filter through which proposed changes were viewed. Participants frequently re-cited stories of their own personal assessments. As these typically occurred within a summative assessment frame-work, they acted as a further reinforcement of the summative paradigm. For example, discussion about the need for greater authenticity in assessments reverted to the need for standardisation: 

그러나 다른 평가 문화에 대한 기존 경험은 변화에 대한 열망을 뒷받침했다. 대부분의 참가자들은 멘토링이 실용적이지 않다고 생각했지만, 한 회원은 자신의 경력에 ​​영향을 미쳤기 때문에 강력한 지지자였습니다.

However, prior experience of a different assessment culture supported desire for change. While most participants felt mentoring was impractical, one member was a strong advocate because of the impact on his own career:

그룹 내에서 권력 자체가 갖는 설득력

Power was persuasive within the group

표면적으로는 그룹 구성원들 간의 상호작용이 빈번하였으며, 학생들이 세부적으로도 많은 기여를 했음에도 불구하고, 전체적으로 그룹의 의견에 주는 영향은 크지 않은 것으로 나타났습니다. 반대로, 어떤 clinician이 더 많은 authenticity에 대한 필요성에 대해 제안했을 때, 이것은 다른 대부분의 그룹에 'strike a chord'하였다. 결과적으로 사실상 모든 구성원이 평가가 종종 authentic하지 못하며, 특히 학생들은 이를 지지하는 목소리를 내었다.

Although superficially there was good interaction between group members, with students contributing frequently and in detail, they appeared less able to influence the group’s opinion as a whole. In contrast, a single clinician’s suggestion about the need for greater authenticity appeared to ‘strike a chord’ with most of the rest of the group. In the end, virtually every member seemed broadly in agreement that assessments are often inauthentic, with students particularly vocal in support.

그룹 토론에서 참가자들은 평가 문화에 대한 변화 제안 논의를 encourage하거나 discourage하는 다양한 기술을 사용하였다. 

    • 학생들은 일반적으로 아이디어를 표현하는 다른 학생들을 명백하게 지지했지만, 임상의들은 이러한 명백한 지지를 거의 사용하지 않았으며, 대체로는 암묵적 지지를 사용했다. 

    • 다른 그룹 멤버들과 동의하지 않을 때, 학생들은 다른 학생들과 의견이 다르다는 것을 명확히 드러내는 경향이 있었으나, 임상의사들에 대해서는 그렇게 하지 않는 경향이 있었습니다. 

    • 반면에 임상의와 교수진은 종종 학생들에게는 명시적으로 반대의견을 표현하지 않았으며, 암묵적 접근을 보다 선호했고, 종종 질문을 하거나 "중립적 태도를 취하는sitting on the fence" 방식을 선호했습니다.

Within the group setting, a variety of techniques were deployed by participants to encourage or discourage discussion of proposed changes to the assessment culture. Students commonly provided explicit support to other students expressing ideas, but this behaviour was rarely used by clinicians, who tended to express more implicit support. When disagreeing with other group members, students tended to disagree explicitly with other students but rarely with clinicians. On the other hand clinicians and faculty members rarely expressed explicit disagreement, especially towards students, preferring a more implicit approach instead, often combined with a questioning style or “sitting on the fence”:

임상의와 교수진은 개인 인터뷰에서 자신의 신념을 표현하는 더 분명히 드러냈다.

The clinicians and faculty members were more explicit in expressing their beliefs in the individual interviews.

특정 아이디어가 논의되었을 때 그룹에서 침묵을 지킨 학생들이, 후속 인터뷰에서는 자신의 견해를 더 솔직하게 표현했다.

Students who remained silent in the group when certain ideas were discussed were much more forthright in expressing their opinion in the follow-up interviews:

임상의는 그룹 내에서 토론의 흐름을 제어하기 위해 몇 가지 기술을 사용했습니다. 첫째로, 그들은 때로는 논쟁중인 주제를 갑자기 변화 시켰습니다. 이것은 대개 제안 된 변경에 대한 그룹의 논의를 끝내는 데 성공적이었습니다. 다른 기술은 그룹에 초점을 맞춘 질문을 하는 것이 었으며, 이는 그룹 토론을 다른 방향으로 옮기는데도 효과적이었습니다.

Clinicians used a couple of techniques to control the flow of discussion within the group. Firstly, they sometimes abruptly changed the topic being discussed. This was usually successful in ending the group’s discussion of a proposed change. Another technique employed was to ask the group a focussed question, which was also effective in moving the group discussion in a different direction.

후속 인터뷰에서 개별 신념의 표현이 훨씬 명확 해졌지만 그룹 토의의 결과로 신념이 바뀌 었다는 증거는 거의 없었다.

While the expression of individual beliefs was much clearer in the follow-up interviews, there was little evidence that the beliefs had been changed by what they had heard in the group setting.



  • 우리는 참여자들이 총괄평가 패러다임의 중요성에 대한 공통의 가정과 신념을 공유한다는 것을 발견했다.

  • 평가 재설계에 대한 토론은 주로 [학생의 더 나은 의사가 될 수 있도록 피드백을 사용]하는 것보다는, [학생들이 향후 평가를 통과하는 데 도움이되도록 피드백을 사용하는 것]에 초점을 맞추었다

  • 장기 멘토링이나 성적 없는 피드백 제공과 같은 '학습을 위한 평가AFL'의 요소는 고려되었지만, 실제 실행가능한 아이디어로 여겨지지 않았습니다.

  • 참가자는 주로 자신의 이전 평가 및 학습 경험에 의존하여 변화가 바람직하거나 바람직하지 않다는 견해를 이끌어 냈습니다.

  • 서로 다른 배경을 가진 참가자 들간의 토론이 그룹 토의에 좋은 참여를 보였음에도 불구하고, 불일치는 암묵적인 방식으로 종종 표출되었고, 수석 임상의와 교수진은 학생들보다 영향력이 더 많았다.

  • 후속 인터뷰를 통해 기본 개인 신념은 그룹 토의에서 크게 변하지 않았음을 입증했습니다.

  • 존슨 (Johnson, 11 번)의 말을 인용하면 "총괄평가는 여기서 일이 돌아가는 방식이다"라는 공통된 공통된 가정이있는 것처럼 보입니다.

  • We found that participants shared common assumptions and beliefs about the importance of the summative assessment paradigm. 

  • Discussion about the redesign focussed on the use of feedback to help students pass future assessments, rather than using the feedback to help students become better doctors. 

  • Elements of an ‘assessment for learning’ culture, such as long-term mentoring and the provision of feedback without grades, were considered but not seen as practical ideas for implementation. 

  • Participants relied heavily on their own prior assessment and learning experiences to guide their views on what changes were possible or desirable. 

  • Although discussion between participants from different backgrounds demonstrated good participation in the group discussion, disagreement was often voiced in an implicit manner and senior clinicians and faculty members appeared to exert more influence than students. 

  • Follow up interviews demonstrated that underlying personal beliefs were largely unchanged by the group discussion. 

  • There appeared to be a shared common assumption that (to paraphrase Johnson [11]) “summative assessment is the way things are done around here”.

총괄평가 패러다임의 지배력, 그리고 기존의 패러다임을 방해하지 않으면서 작은 변화를 이루려는 욕구는 [조직이 변화의 필요성에 직면했을 때 넘어야 하는 개념적 도전]에 대한 Johnson의 연구와 일치합니다. Johnson은 조직의 전략이 조직의 구성원이 공유하는 공통된, 때로는 암묵적인 가정에 근거한다고 주장합니다. 결과적으로 조직의 문화적 요소는 '당연한 것으로 간주됩니다'.

The dominance of the summative assessment paradigm, and the desire to make small changes without disrupting the paradigm, is consistent with Johnson’s work on the conceptual challenges organisations face when confronted with evidence of the need to change [11]. Johnson argues that an organisation’s strategy is based on common, often unspoken, assumptions which are shared by members of the organisation. As a result, elements of an organisation’s culture are ‘taken for granted’.

모든 참가자의 공헌에도 불구하고, 수석 임상의와 교수진이 토론의 결과에 더 많은 영향을 줄 수있는 것으로 보인 것은 놀랄 일이 아닙니다. 임시적으로 구성된 의료팀 구성원은 일반적으로 이전 경험이나 고정 관념을 바탕으로 권력의 분배에 관한 선입견을 갖는 경향이 있기 때문이다.

Despite contributions from all members, it is unsurprising that the senior clinicians and faculty members appeared more capable of influencing the outcome of the discussion. Members of a medical team formed on an ad hoc basis typically have preconceptions regarding the distribution of power, based on prior experiences or stereotypes [30].

참가자들이 그룹에서 서로에 대해 동의하지 않는 것을 함축적으로 표현하는 방식은 언어적 화용론 분야에서 설명 된 Brown과 Levinson의 예절 이론과 유사하다. 이 이론에서, 화자는 원하는 것을 의사 소통하려고 시도하면서 공격을 피하기 위한 전략을 사용한다. 예를 들면 간접적 표현의 사용, 일반론적 규칙이나 질문을 사용하는 것 등이 있습니다.

The implicit ways in which participants disagreed with each other in the group has similarities with Brown and Levinson’s theory of politeness, as described in the field of linguistic pragmatics [31]. In their theory, they describe how speakers employ strategies to avoid causing offence while still trying to communicate what they desire. Examples include the use of indirect language, statements of general rules or questions.

최근 Ginsburg와 동료들은 이러한 상황에서 비문자 언어non-literal language의 사용이 일반적이며 교수진이 "체면을 차릴" 수 있음을 발견했습니다. 상호 작용에서의 정치성은 필연적으로 혼란을 야기하며 어떤 상황에서는 위험 할 정도로 도움이 되지 않는다. 이번 연구에 따르면, 그룹 토론에서 의견을 공손하게 표현하거나 침묵했던 것이 확고하게 유지 된 개인적 신념을 적절히 대표하지 못했다는 것이 분명했음이 개별 인터뷰에서 드러났다

Recently, Ginsburg and colleagues found the use of non-literal language was common in these circumstances and enabled faculty members to “save face”. Politeness in interactions inevitably causes confusion and can even be dangerously unhelpful in certain situations [33]. It was clear from our study that politely-expressed comments, or even silence, in the group did not adequately represent more firmly-held personal beliefs which became evident in the individual interviews.

의학교육에 대한 함의

Implications for medical education

대부분의 참가자가 총괄평가의 문화에 확고하게 뿌리를 내리고 있는 개인적인 신념을 강하게 가지고 있다는 것은 이해할 수 있습니다. 임상가와 학생 모두 AFL 평가 경험은 거의 없거나 아예 없었기 때문에 지배적인 평가 문화는 고부담 평가를 기반으로했을 가능성이 큽니다.

It is understandable that most participants had strongly held personal beliefs which kept them firmly rooted in the summative assessment culture. For both clinicians and students, it is likely that the prevailing assessment culture had been based on high-stakes assessments, with little or no experience of an assessment for learning culture.

프로그램적 평가 또는 AFL에 기초한 평가 문화의 변화를 가져오기 위한 필수 요소는 학생과 교수진의 평가 방법에 대한 개념변화일 것이다. 변화를 수용하기 위해서, 그들은 총괄적 고부담 평가의 우선성에 대한 믿음을 멈추어야 할 필요가 있습니다. 이것은 신념의 근본적인 변화를 필요로 할 것이며, 이를 쉽게 보아서는 안 될 것이다.

In order to bring about a change in assessment culture towards one based on programmatic assessment or assessment for learning, the vital factor would appear to be a change in how both students and faculty conceptualise assessment. To accept change, they would need to stop believing in the primacy of summative high-stakes assessments. This requires a radical change in belief and the challenge of how to bring this about should not be underestimated.

믿음의 근본적인 변화라는 점에서, 아마도 과학 교육 분야에서 얻을 수 있는 교훈이 있을 것입니다. 학교 과학 교사는 지구가 구형임을 이해하기 위해 세계가 평평하다는 학생의 굳은 선입견을 바꿀 필요가 있습니다. 절대 반박 할 수 없는 지구가 둥글다는 증거를 학생들에게 제시하는 것 만으로는 학생들로 하여금 신념을 바꾸게 하지 못하였다 [34]. 대신, Vosniadou [35]는 과학 교육 내에서 개념적 변화에 대한 종합 모델synthetic model 접근법을 주장한다. 이 접근법에서 학습자는 자신의 삶의 경험에 기초하여 초기 단계에서 pre-conceptions을 형성한다고 주장한다. 다수의 pre-conception이 모여서, 비록 협소한 설명틀이더라도 일관성을 갖게 되는데, 이것을 naive theory라고 한다.

When considering such a fundamental change in belief, perhaps we could learn from the field of science education. School science teachers are required to change children’s firmly held preconceptions that the world is flat to an understanding that the earth is spherical. Simply presenting pupils with the apparently irrefutable evidence of a globe fails to convince students of the need to change their beliefs [34]. Instead, Vosniadou [35] argues for what she calls a synthetic models approach to conceptual change within science education. This approach argues that learners form pre-conceptions at an early stage, based on their experience of life. A number of pre-conceptions typically combine together to form a coherent if narrow explanatory framework, sometimes called naïve theory. 

Vosniadou [35]는 개념 변화라는 것은 한 개념을 다른 개념으로 갑자기 대체하는 방식으로 이뤄지지 않음을 인식하고 있었다. 대신 그것은 상호 연관된 개념의 대규모 네트워크가 서서히 변화하는 과정이며, 이 과정에서 새로운 구조가 발달하여 개인적 신념이 급진적으로 변화하는 과정이다. 이 때 새로운 개념이 부분적으로만 이해됨으로써 preconception이 misconception으로 대체될 위험이 있습니다. Vosniadou는 신념이 challenged 됨으로써 그것을 반박불가능한 과학적 사실로 보기보다는 검증될 수 있는 가설로 생각되어야 한다고 주장한다.

Vosniadou [35] recognises that conceptual change is not a sudden replacement of one concept with another. Instead it is a slow process that involves a large network of interrelated concepts and which requires the development of new constructions that involve radical changes in personal beliefs. There is a risk with conceptual change that new conceptions are only partially understood, so that preconceptions are replaced by misconceptions. Vosniadou argues for beliefs to be challenged so that they are not seen as undisputed scientific facts, but instead as hypotheses to be tested.

평가 문화의 변화를 적극적으로 추진하는 기관은 총괄평가 패러다임에 대한 믿음을 유지시키는 상호 관련된 preconception을 이해할 필요가있다. 이러한 선입견에는 

    • 학생이 배우게 하기 위해 시험이 필요하다는 믿음, 

    • 총괄 평가를 통해 대중으로 하여금 '안전하지 않은 의사'를 진료하지 못하게 막아준다는 믿음,

    • 점수, 숫자 및 성적이 피드백보다 중요하다는 믿음,

등이 포함된다.

Institutions enthusiastic to implement a change in assessment culture would need to understand the inter-related preconceptions maintaining belief in the summative assessment paradigm. Such preconceptions include 

    • the belief that exams are necessary to make students learn, 

    • the belief that summative assessments reassure the public that potentially unsafe doctors are prevented from practice and 

    • the belief that marking, numbers and grades are more important than feedback.

Québec에서는 변화의 enactment는 리더들이 [기존 교과 과정의 결점에 대한 조직의 공통된 신념]을 토대로하는 것으로 나타났습니다. 이것은 다른 곳에서 일어나는 교육 변화에 대한 (몇 년에 걸친) 점진적인 노출과 관련이 있었으며, 그 결과 기관 내부의 변화과정이 과도하게 급진적으로 보이지 않게 하였다.

In Québec, the enactment of change appeared to work as the faculty leaders built on the organisation’s shared beliefs about the faults with the existing curriculum. This was linked to a gradual exposure (over several years) to educational changes occurring elsewhere, which meant that the institution’s own proposed changes did not seem unduly radical [36].

환자가 건강에 좋지 않은 건강에 해로운 생활 방식을 바꾸도록 매일 투쟁하는 임상 환경에서 배울 만한 교훈이있을 수도 있습니다. 건강 행동 변화에 관한 문헌을 보면, 환자를 주의 깊게 경청하고, 환자가 건강에 대해 가지고 있는 신념을 nonjudgemental하게 탐색할 시간을 가지면, 환자로 하여금 변화에 대한 자신의 양면성을 해결하는 데 도움이 될 수 있음이 분명합니다 [37].

There may also be lessons to learn from clinical settings, where there are daily struggles to encourage patients to change unhealthy lifestyles which are contributing to ill health. From the developing literature on health behaviour change, it is clear that listening carefully to patients, and taking time to explore their health beliefs in a nonjudgemental manner, can help patients to resolve their own ambivalence about change [37].


그룹이 여러 차례에 걸쳐 만난다면 이해 관계자 간의 상호 작용은 시간이 지남에 따라 바뀔 수도 있습니다. 우리는 데이터 포화를 달성했다고 주장하지 않습니다. 그러나 대부분의 의대가 종합 평가를 실시하기 때문에 연구가 진행된 배경은 드문 일이 아닙니다. 사실, 의대의 피드백 전달에 대한 의과 대학의 기록은 우리 참가자들이 다른 곳보다 더 변화의 가능성에 대해 개방되어 있음을 의미 할 수 있습니다.

If the group had met on a number of occasions, interactions between stakeholders may well have changed over time. We do not claim to have achieved data saturation. However, the context in which the study took place is not unusual, as most medical schools conduct summative assessment. Indeed, the medical school’s record of innovation in the delivery of feedback may mean that our participants were more open to the possibility of change than might be the case elsewhere.

Suggestions for further research


32. Ginsburg S, Van der Vleuten C, Eva KW, Lingard L. Hedging to save face: a linguistic analysis of written comments on in-training Adv Health Sci Educ. 2016;21(1):175–88. 

33. Bonnefon JF, Feeney A, De Neys W. The risk of polite misunderstandings. Curr Dir Psychol Sci. 2011;20(5):321–4.

38. Cilliers F, Schuwirth L, Van der Vleuten C. 13 health behaviour theories: a conceptual lens to explore behaviour change. Res Med Ed. 2015;8:141. XXX

 2017 Apr 28;17(1):73. doi: 10.1186/s12909-017-0912-5.

Changing the culture of assessment: the dominance of the summative assessment paradigm.

Author information

Keele University School of Medicine, Keele, Staffordshire, ST5 5BG, UK. c.j.harrison@keele.ac.uk.
Faculty of Health, Medicine and Life Sciences, Maastricht University of Maastricht, Maastricht, The Netherlands.
Flinders Medical School, Adelaide, Australia.
Keele University School of Medicine, Keele, Staffordshire, ST5 5BG, UK.



Despite growing evidence of the benefits of including assessment for learning strategies within programmes of assessment, practical implementation of these approaches is often problematical. Organisational culture change is often hindered by personal and collective beliefs which encourage adherence to the existing organisational paradigm. We aimed to explore how these beliefs influenced proposals to redesign a summative assessment culture in order to improve students' use of assessment-related feedback.


Using the principles of participatory design, a mixed group comprising medical students, clinical teachers and senior faculty members was challenged to develop radical solutions to improve the use of post-assessment feedback. Follow-up interviews were conducted with individual members of the group to explore their personal beliefs about the proposed redesign. Data were analysed using a socio-cultural lens.


Proposed changes were dominated by a shared belief in the primacy of the summative assessment paradigm, which prevented radical redesign solutions from being accepted by group members. Participants' prior assessment experiences strongly influenced proposals for change. As participants had largely only experienced a summative assessment culture, they found it difficult to conceptualise radical change in the assessment culture. Although all group members participated, students were less successful at persuading the group to adopt their ideas. Faculty members and clinical teachers often used indirect techniques to close down discussions. The strength of individual beliefs became more apparent in the follow-up interviews.


Naïve epistemologies and prior personal experiences were influential in the assessment redesign but were usually not expressed explicitly in a group setting, perhaps because of cultural conventions of politeness. In order to successfully implement a change in assessment culture, firmly-held intuitive beliefs about summative assessment will need to be clearly understood as a first step.


Feedback; Programmatic assessmentSummative assessment

[Indexed for MEDLINE] 
Free PMC Article

AFL 문화로의 변화 어려움(Med Educ, 2016)

The challenge of changing to an assessment for learning culture

Chris Harrison & Val Wass

지난 몇 년 동안 학습 기간이 끝날 무렵에 고부담 시험에 대한 순수한 의존 ( '학습 평가'또는 'AOL'평가)에서 벗어나 학습기간 전반에 걸쳐, 풍부한 피드백과 결합된 다수의 저부담 평가에 초점을 맞출 것을 촉구했습니다. ( '학습을위한 평가'또는 AFL)

Over the last few years, there have been calls to move away from a pure reliance on high-stakes testing at the end of a period of learning (‘assessment of learning’ or AOL) towards a focus on multiple low-stakes assessments throughout the period of learning, combined with rich feedback (‘assessment for learning’ or AFL).1,2

너무 자주 평가는 학습을 위한 기반이 아니라 극복해야 할 장애물이됩니다.

Too often, assessments become hurdles to be overcome, rather than stepping stones to further learning.3

Pugh와 Regehr는 progress test의 잠재적 이점을 옹호합니다. 이론 상으로 보면, PT는 광범위한 컨텐츠 영역을 다루기 때문에 마지막 순간에 벼락치기가 도움이 되지 않기 때문에 더 깊은 학습이 이루어져야합니다. 각각의 PT는 저부담 평가의 의도가 있기 때문에, 고부담 평가가 학습에 미치는 부작용의 일부를 완화할 수 있을 것으로 기대된다.

Pugh and Regehr advocate potential benefits of progress tests . In theory, as they cover such a broad content area, last-minute cramming should not be a helpful strategy, so deeper learning ought to take place. The low-stakes intention of each individual progress test should mitigate some of the adverse effects that high-stakes assessments can have on learning approaches.

또한 Progress test는 학습자에게 매우 상세한 피드백을 제공하는 비교적 간단한 방법을 제공합니다.

Progress tests also offer a relatively straightforward way to provide fairly detailed feedback to learners.

현실이 이러한 기대를 충족 시키는가?

Does the reality meet these expectations?

학생들이 언제나 PT가 더 깊은 학습을 촉진한다고 인식하지는 않습니다. 그보다 더 광범위한 수준에서 평가 프로그램의 디자인이 중대한 영향을 미친다 .7 저부담 시험으로 설계된 평가가 학습자에게 총괄평가로 인식되면서 학습에 부정적 영향을 미치기도 한다.8,9 학생들의 관점에서 볼 때, 평가는 종종 총괄평가의 전통에 확고하게 뿌리 내리고 있습니다.

Students do not always perceive the progress test as promoting deeper learning; the wider design of the assessment programme has a critical influence.7 Other assessments that designers intend to be low stakes can in fact be perceived by learners to have summative consequences, with adverse effects on learning opportunities.8,9 From the students’ perspective, assessment often remains firmly rooted in the summative tradition.

또한 학생들은 늘 피드백을 요구하면서도, 그것을 formative하게 사용하는 것을 어려워한다.

In addition, students, although always vocal in their demand for feedback, appear to have difficulty in using it formatively.

한 예로, 객관적 구조 임상 시험 (OSCE)에 따라 웹 사이트를 통해 모든 학생들에게 의견이 전달되었습니다 .10) 피드백을 사용한 방식에 상당한 변화가있었습니다. 

  • 우수한 성적을 보이는 학생들은 웹 사이트 피드백을 formative한 목적보다는 경쟁적 비교를 위해 사용하는 경향이 있었으며, 

  • 반면, 가까스로 통과한 학생 (가장 많은 피드백을 필요로 하는 학생)은 평가 장애물을 넘겼다는 이유로 피드백을 무시하는 경향이있었습니다.

In one example feedback was delivered via a website to all students following an objective structured clinical examination (OSCE).10 there was considerable variation in how they used the feedback. Highly performing students tended to use the website feedback for competitive comparison of performance rather than formatively, whereas the just-passing students (who needed it most) tended to ignore it as they had managed to clear an assessment hurdle.

총괄평가는 학생들의 실패와 그에 따른 처벌에 대한 두려움이 dominant한 강력한 문화를 창출했다.

summative assessments created a powerful culture that was dominated by students’ fear of failure and subsequent punishment.3

총괄평가 후에 제공된 피드백은 미래의 임상 현장에서의 학습과는 관련이없는 것으로 간주된 반면, 미래의 총괄평가에 대해서만 도움이 되었던 나타났습니다.

The feedback provided after a summative assessment was not regarded as relevant for future learning in the clinical workplace, but was only seen as appropriate for future summative assessments.

평가자와 멘토의 역할을 결합하는 것은 매우 어렵습니다.

It appears very hard to combine the roles of assessor and mentor.

이것은 우리에게 불편한 진실을 알려준다. 최선의 의도에도 불구하고 저부담 평가로 설계된 평가가 고부담 평가로 인식 될 수 있습니다. 평가는 그것의 설계 또는 구현 방식때문에 총괄평가처럼 인식되면, 평가 정보도 의도하지 않게 합격-불합격의 binary한 결정으로 단순화되어 피드백에 대한 수용성이 저해되고, 이는 학생들에게 dominant한 메시지가 됩니다.

This leads us to some uncomfortable truths. Despite our best intentions, assessments designed as low stakes may be perceived as high stakes. If an assessment is perceived as summative, either by design or implementation, receptivity to feedback is hindered, as the information from the assessment has been unintentionally boiled down to a binary pass-fail decision, which becomes the dominant message.

그렇다면 우리는 어떻게 평가가 학습에 유익한 영향을 미칠 수 있도록 보장 할 수 있습니까? 평가와 피드백이 이루어지는 더 넓은 환경과 문화를 고려해야합니다.

How then can we ensure that assessments have beneficial effects on learning? we need to consider the broader environment and culture in which assessment and feedback take place.

우리는 의대 내에 팽배해있는 평가 문화에 도전 할 준비가되어 있어야합니다. 피드백에 대한 수용성을 장려하는 것 외에도 역량 기반 평가의 의도하지 않은 부작용을 피해야하며, 평가가 practice와 authentic하게 연계되어 있어야한다.

we need to be prepared to challenge the prevailing assessment culture. In addition to encouraging receptivity to feedback, unintended adverse consequences of competency-based assessments must be avoided and authentic linkage of assessment to practice created.12

문화를 바꾸는 것은 쉽지 않을 것입니다. 그들은 또한 과거에 의학 교육에서 혁신을 구현하는 것이 항상 쉬운 것은 아니라는 점을 상기 할 것입니다.

Changing the culture will not be easy. They will also recall that, within medical education, implementation of previous innovations has not always been straightforward.

도구 자체의 장점에 초점을 두는 대신, 평가와 관련한 광범위한 학습문화 속에서 PT 및 평가를 구현하는 방법을 이해하는쪽으로 바뀌어야 한다. 본질적으로 전통적인 평가 설계의 제약으로부터 자유로운 학습 환경을 조성하기 위해 교수진의 노력이 필요합니다.

instead of focusing on the merits of the tool itself, we need to move to understanding how to implement progress tests, and other assessments, successfully within a broader assessment for learning culture. In essence, it requires a commitment from faculty members to create a learning environment free from the restraints of traditional assessment design.

The power of the written word: team assessment of behaviour Britta M Thompson,1 Jed D Gonzalo1 & Ruth E Levine2

 2016 Jul;50(7):704-6. doi: 10.1111/medu.13058.

The challenge of changing to an assessment for learning culture.

Author information

Keele, Staffordshire, UK.
[Indexed for MEDLINE]

학습을 위한 평가로: 미래의 의사 교육(Med Teach, 2013)

Beyond assessment of learning toward assessment for learning: Educating tomorrow’s physicians


Cleveland Clinic Lerner College of Medicine of Case Western Reserve University, USA




Setting the stage

기존 프로그램에 변화를 가져 오거나 새로운 프로그램을 만들 때, 교수진은 평가 목표를 다시 생각할 기회가 필요합니다 (Dijkstra 외. 2010).

Whether bringing change to an existing program or creating a new one, faculty need the opportunity to rethink the goal of assessment (Dijkstra et al. 2010).

우리 졸업생들이 원하는 특성에 대해 폭넓게 토론함으로써 "성찰적 의사" 훈련이라는 개념에 합의하게 되었다.

Extensive discussion about the desired characteristics of our graduates resulted in agreement among faculty on the concept of training reflective practitioners 

성찰적 의료인: 학습 요구를 스스로 평가할 수 있고, 학습 계획을 수립하고 구현하고, 지속적인 개선을 문서화하는 의사

reflective practitioners – physicians able to self-assess learning needs, create and implement learning plans, and document continual improvement 

한 시니어 교수가 요약 한대로 '왜 학생이 레지던트가 될 때까지 학습에 책임을 지기를 기대하기를 미뤄야 하나?'

As one senior faculty member summed it up, ‘‘Why wait until they are residents before we expect them to take responsibility for their learning?’’

학생들도 일반적으로 의대에 가져 오는 사고 방식을 바꾸어야합니다. 대부분의 학생들은 학창시절 내내 'A'를 받았으며, 의과 대학에 들어와서도 학습 자료를 결정하고, 무엇이 중요하고 '시험'을 준비하는 방법이 무엇인지를 알기 위해 교수진에게 의존한다.

Students, too, need to change the mindset they typically bring to medical school. Most students arrive at medical school having received straight ‘‘A’s’’ throughout their schooling, welltrained to rely on faculty to determine learning material, expecting to be told what’s important and how to prepare for ‘‘the test’’.

평가 시스템에 대한 오리엔테이션에서는 CCLCM의 사명을 인식하고 학습 요구를 식별 할 책임이있는 성찰적 의료인을 양성하는 CCLCM의 사명을 강조합니다. 따라서 학생들은 입학 후에 시험과 성적이 없다는 것에  대부분 '문화적 충격'을 받게 된다(Altahawi 외. 2012).

Orientation to the assessment system emphasizes CCLCM’s mission to train reflective practitioners who self assess and take responsibility for identifying learning needs. Thus entering students know that there are no exams or grades, yet most experience ‘‘culture shock’’ (Altahawi et al. 2012).

교수 및 학생 모두 프레임 변화가 필요합니다

  • 교수진은 학습 경험을 제공하고, 유용한 피드백을 제공하며, 학생들이 학습에 대한 책임을 질 것으로 신뢰해야 한다. 

  • 학생들은 'A'를 받기 위한 '총'을 가치있게 여기기보다는, gap을 찾아내고 개선의 document하는 능력을 더 중요시해야합니다.

A frame shift is required for both faculty and students. 

  • Faculty need to view their role as that of providing learning experiences, giving useful feedback, and trusting students to take responsibility for their learning. 

  • Students need to value the ability to identify gaps and document improvement, rather than ‘‘gun’’ for the ‘‘A’’.


The essential building blocks

역량 기준

Competency standards

학생들에게 성과 피드백을 사용하여 자기평가를 하도록 요구하려면, 자신의 수행능력을 판단할 명확한 expectation이 필요합니다. 교수진은 학생들에게 아홉 가지 역량을 요구하고,

Students need clear expectations by which to make judgments about their performance if we expect them to self-assess using performance feedback. The faculty agreed to require students to achieve nine competencies,

각 역량에 대해 교수진은 각 학년도에 대해 3 ~ 4 개의 발달 적으로 적절한 성과 표준을 확인했습니다. 표 1은 연구 역량 표준을 예로 든 것입니다. 성과 기준은 여러 상황에서 서로 다른 상황에서 측정 가능하고 관찰 가능하며 역량의 성과 평가에 기여합니다.

For each competency, faculty identified 3 to 4 developmentally appropriate performance standards for each academic year; Table 1 provides research competency standards as an example. The performance standards are measurable, observable in multiple situations in different contexts, and contribute to evaluating performance of the competency.

지속적 형성평가

Ongoing formative assessments

CCLCM은 학습을 위한 평가와 진급을 위한 평가라는 두 개의 별도 평가 트랙 대신, 둘 다에 대해 동일한 평가를 사용합니다. 모든 평가는 형성적이고 빈번하며 역량을 목표로합니다. 평가(자료)를 수집함에 따라서, 학생들은 그 자료들을 일련의 저부담 결정에 따라 학습을 guide하는 용도로 사용합니다. 그러나 연말에 학생은 총괄적으로 구체적 기록을 검토하고, 역량을 달성해온 과정에 대한 풍부한 설명을 문서로 제출해야 한다. 이것이 진급 결정의 기초가 된다. 선다형 문제, 에세이 문제 (Bierer 외. 2010) 및 OSCES와 같은 전통적인 방법이 사용됩니다. 완료시 학생에게 정확한 답변과 피드백이 주어져 학습을 촉진합니다.

Rather than create two separate assessment tracks, one for learning and one for promotion decisions, CCLCM uses the same assessments for both. All assessments are formative, frequent, and targeted to the competencies. As assessments are collected, students use them to guide learning in a series of low stakes decisions. At end of year, however, the student examines the detailed record in total and provides a rich, well-documented account of progress in achieving the competencies. This account comprises the basis for promotion decisions. Traditional methods such as multiple choice questions, essay questions (Bierer et al. 2010), and OSCES are used. Correct answers and feedback are given to students at the time of completion to promote learning.

이러한 방법은 [관찰된 역량 관련 행동을 성찰하기 위해 각 설정에 맞춰 수정된 템플릿]으로 수집된 [내러티브 피드백]으로 보완됩니다 (Dannefer 외. 2012). 평가자는 학생들이 잘 수행하고있는 것을 강화하고 개선을위한 목표 영역을 확인하기 위해 정보가 풍부한 피드백을 제공하도록 교육을 받았습니다. 표 2는 1 학년 학생에 대한 연구 프 레셉터의 평가로부터의 의사 소통에 관한 발췌를 제공합니다. 템플릿은 또한 여러 가지 역량이 실무 상황에 따라 다른 방식으로 통합되어야한다는 개념을 표현한다. 양식의 일반적인 설명 섹션은 전체적인 수행능력 개요를 제공합니다.

These methods are complemented by narrative feedback collected using a template modified for each setting to reflect competency related behaviors that can be observed (Dannefer et al. 2012). Assessors are trained to provide information-rich feedback to reinforce what students are doing well and identify targeted areas for improvement. Table 2 provides an excerpt regarding communication from a research preceptor’s assessment of a Year 1 student. The template also conveys the notion that multiple competencies need to be integrated in different ways depending on the practice situation. A general comments section on the form allows for holistic overviews of performance.

의도적 지지

Purposeful support

학생이 자신의 학습 관리에 대한 책임을 지지만, 동시에 상당한 교수 지원을 받습니다. 우리는 의대 전반에 걸쳐 각 학생에게 [성찰과 자기 평가를 촉진에 대한 훈련을 받은 지도의사]를 지정하여, 학생들이 자신이 받은 형성적인 피드백을 분석하고 해석하고 학습 요구를 확인할 수 있도록 돕습니다.

Students, though given responsibility for managing their learning, receive considerable faculty support. We assign a physician advisor trained in promoting reflection and self-assessment to each student throughout medical school to help students analyze and interpret formative feedback and identify learning needs.

학생과 지도의사 간의 빈번한 만남은 정기적으로 피드백을 검토하고 진행 상황을 성찰하는 중요성을 강조합니다.

Frequent meetings between students and advisors reinforce the importance to review feedback regularly and reflect on progress.

학습자 책임

Learner responsibility

학생이 학습에 대한 자신의 책임감을 실천하는 여정은 첫 번째 포트폴리오에서 시작됩니다. 의대 1 학년에 학생들은 역량 평가 기준에 부합하는 진행 상황을 문서화하고 자기평가를 기반으로하는 학습 계획을 보완하는 에세이로 구성된 세 가지 형식 포트폴리오를 준비합니다. 그 다음 지도교수와 만나 자기 평가에 대한 대화를 하고, 지도교수와 평가가 서로 다를 경우 그에 대해 논의합니다.

The student’s journey towards developing the practice of taking responsibility begins with the first portfolio. In the first year of medical school, students prepare three formative portfolios composed of essays to document progress in meeting the competency standards, complemented with a learning plan based on their self-assessment. Then, they meet with their advisor to engage in a dialogue about the student’s self-assessment, discussing areas where their appraisals may diverge.

고부담 결정에서조차 학생들은 적극적인 역할을합니다. 연말에 학생들은 총괄 포트폴리오를 준비하는데, 여기에는 성과 기준 달성과 관련한 progress와 challenge를 문서화하게 된다. 우리는 종종 총괄 포트폴리오를 (학생이 자신의 평가 데이터베이스에서 선택한 인용이 달린 신중하게 작성된 문서로서) "자신에 대한 연구 논문"이라고 묘사한다.

Even in the high stakes decisions, students play an active role. At the end of the year, students prepare a summative portfolio, documenting their progress and challenges in terms of achieving the competency standards (Dannefer et al. 2011). We sometimes describe the summative portfolio as a research paper on the self, carefully documented with citations selected by the student from his/her assessment database.

지도교수는 포트폴리오 초안을 검토하고 학생의 자기평가의 정확성에 대한 피드백을 제공하며, 학생에게는 일년 내내 자신의 실적을 대표하는 것으로 인증을 수정하고 다시 제출할 수있는 기회가 주어집니다.

The advisor reviews the draft portfolio, providing feedback as to the accuracy of the student’s self-assessment, and students are given an opportunity to revise and resubmit for certification that it is representative of performance across the year.

진급위원회는 엄격한 규칙에 따라 각 포트폴리오를 검토하여 학생이 

    • 역량을 충족하는지, 

    • 충족하지만 약간의 보완이 필요한지(지도교수와 함께 학습 계획을 수립해야 함), 

    • 역량을 충족시키지 못하는지 결정합니다 (Bierer & Dannefer 2011). 역량을 갖추지 못한 학생은 지도교수의 도움을 받아 개선 계획을 수립하고 문제를 충분히 해결할 때까지 진급위원회에 정기적 보고서를 제출합니다. 이러한 개선책은 학생의 책임을 강화시킵니다.

The promotion committee reviews each portfolio following a rigorous protocol to determine whether a student meets the competencies, meets competencies with concern, which requires developing a learning plan with his/ her advisor, or does not meet competencies (Bierer & Dannefer 2011). The student who does not meet competencies develops a remediation plan with the help of his/her advisor and submits regular reports on progress to the promotions committee until he/she shows they have sufficiently addressed the issues. This approach to remediation reinforces student responsibility.

평가 시스템에 적응

Adjusting to the assessment system

이 시스템에 대한 적응은 학생마다 다르지만, 익숙해지기까지 어느 정도의 시간이 걸리는 것으로 나타났습니다. 특히 성적이 없다는 것에 대해서 적응에 시간이 걸리는 경우가 많습니다 (Altahawi 외. 2012).

Adjustment to this system varies for each student, but most find that it takes some period of time to get used to, especially the absence of grades (Altahawi et al. 2012).

학생들과의 대화에 따르면 학점이 없다는 것에 의해서 내적동기 부여 프로세스가 가속화되는데, 왜냐하면 더 이상 교수의 판단에 의존할 수 없기 때문이다. 피드백은 학생들이 표준을 충족시키는 지 여부를 판단하는 중요한 정보 원천이됩니다. 우리의 졸업생들은 입학생들에게 피드백에 대해서 개방적이어야 하며, 수용적이어야 하고, 진지하게 받아들이되 개인적인 것으로 생각하지 말고, 적극적으로 의견을 구하라고 조언합니다.

Conversations with students suggest that not having grades accelerates the process of becoming internally motivated because they can no longer rely on faculty judgments. Feedback becomes a critical source of information for students about whether or not they are meeting the standards. Our graduating students advise incoming students to be open and receptive to feedback, to take it seriously, not personally, and to actively seek feedback.

나는 처음에 내가했던 피드백보다 훨씬 덜 두려워한다. 어떤 자기 주도형 A 타입 사람과 마찬가지로 좋은 피드백이있는 바다 한가운데서 단 하나의 제안 일지라도 나는 완벽하지 못한 것을 듣고 싶지 않았습니다. 이제 더 이상 피드백을 요청하거나 내 퍼포먼스에 대한 제안을 받는 것을 두려워하지 않는다. 이제는 오히려 편안하다. 개선의 여지가 있다는 것은 더 이상 끔찍한 것이 아니며, 오히려 항상 완벽해야 한다는 압력을 줄여준다.

I am much less ‘‘afraid’’ of feedback (than) I initially was; like any self-driven, Type A person, I did not want to hear anything less than perfect—even if it was only one suggestion in the midst of a sea of good feedback. Now, I am no longer afraid to ask for feedback and take suggestions on my performance;it’s almost comforting now—to have room to improve is no longer such a dire thing, rather it takes pressure off, as I no longer always have to be perfect. 

한 학생이 말했듯이, 학생들의 의견에 대한 일반적인 합의는 "우리가 성적에 집착하지 않기 때문에 사실 배우고 실제로 나아질 수 있습니다."

The general consensus of our feedback from students is, as one student said, that ‘‘because we’re not obsessing about grades, we can actually focus on learning and actually getting better.’’ 

CCLCM 평가 문화는 학생의 기록에 검은 색 표시가 아닌 성장 촉진이라는 건설적인 피드백을 정의하고 학습 요구 사항을 성숙한 전문가의 신호로 간주하며 모든 학생들의 역량 달성을 기대합니다.

The CCLCM assessment culture defines constructive feedback as growth-promoting rather than a black mark onthe student’s record, views acknowledgement of learning needs as a sign of a mature professional, and expects achievement of competencies by all students.

Altahawi F, Sisk B, Poloskey S, Hicks C, Dannefer EF. 2012. Student perspectives on assessment: Experience in a competency-based portfolio system. Med Teach 34:221–225.

Dannefer EF, Bierer SB, Gladding SP. 2012. Evidence within a portfolio-based assessment program: What do medical students select to document their performance? Med Teach 34:215–220. 

 2013 Jul;35(7):560-3. doi: 10.3109/0142159X.2013.787141. Epub 2013 May 3.

Beyond assessment of learning toward assessment for learningeducating tomorrow'sphysicians.

Author information

Cleveland Clinic Lerner College of Medicine of Case Western Reserve University, Cleveland, OH, USA. dannefe@ccf.org


Beyond its importance in informing high-stakes decisions, the assessment process can also be designed to foster learning. To be effective, this requires developing a program in which curricular experiences, assessment practices and support activities are aligned to provide an educational culture that encourages self-regulated learning. We describe a program (based at Cleveland Clinic Lerner College of Medicine) in which explicit performance standards align these components and provide a roadmap for students to manage their learning. Information-rich assessment data, structured opportunities for reflection, and facilitated self-assessment using a portfolio approach are designed to support development of habits of reflective practice. Promotion depends on the achievement of competencies rather than grades. Preliminary evidence suggests that the program directs students towards learning, rather than on achieving a grade for grade's sake.

[Indexed for MEDLINE]

보건의료직의 평가프로그램을 위하여: 훈련에서 독립까지(Adv in Health Sci Educ, 2016)

Towards a program of assessment for health professionals: from training into practice

Kevin W. Eva1 • Georges Bordage2 • Craig Campbell3 • Robert Galbraith4 • Shiphra Ginsburg5 • Eric Holmboe6 • Glenn Regehr1



사회가 의료계와 맺은 사회적 계약에는 환자의 보호를 보장하는 방식으로 self-regulate해야한다는 의무가 포함됩니다 (Cruess and Cruess 2014). 이 의무를 해결하기 위해 미국과 캐나다의 규제 당국은 공정하고 평등 한 품질 보증 프로세스를 구축하기위한 노력의 일환으로 공식 국가 시험을 오랫동안 포함 해 왔습니다.

Society’s implied social contract with any health profession includes the obligation of that profession to self-regulate in a manner that ensures the protection of patients (Cruess and Cruess 2014). To address this obligation, regulatory authorities in the US and Canada have long included formal national examinations as part of their efforts to construct a fair and equitable quality assurance process.

그러나 고부담 평가의 증가가 (의료의) 품질과 안전을 개선하지 않았다는 증거도있다. 오히려 그 반대 근거가 가장 최근의 데이터 (제임스 2013)에서 관찰되었으며, 미국의 의료 오류 및 저품질 의료로 인한 실제 사망자 수는 거의 20년 전에 출판된 IOM의 정립 된 연구소의 보고된 수치의 3 배가 될 수 있습니다​​(Kohn et al., 1999).

There is also evidence, however, that increases in the amount of high-stakes assessment have not led to improvements in quality and safety; rather, the opposite has been observed with the most recent data (James 2013) suggesting that the actual number of deaths due to medical error and poor quality healthcare in the US may be three times the number reported by the seminal Institute of Medicine Report that was published nearly two decades ago (Kohn et al. 1999).

다른 말로하면, 효과적인 건강 관리 전문가의 CPD는 고부담 평가 (Eva et al. 2013)에 따라 합격 / 불합격 연속적 위치에 관계없이 모든 의료 서비스 제공자에게 필수적입니다.

In other words, effective continuing professional development is vital for all healthcare providers, regardless of where they sit on the pass-fail continuum according to high-stakes assessment practices (Eva et al. 2013).

방법과 개념틀Methods and conceptual framing

평생 직업 능력 개발을 촉진하여 모든 평가 프로그램이 환자 치료에 긍정적 인 영향을 미치는지 확인하려면 두 가지 모두를 고려하는 것이 중요합니다

  • 지원자 및 이해관계자에게 전달되는 암묵적 메시지뿐만 아니라

  • 특정 평가 전략의 채택에 따르는 의도하지 않은 결과.

이것은 Messick (1989)의 결과타당성에 대한 개념이다.

To ensure that any assessment program has a positive influence on patient care by promoting lifelong professional development, it is important to consider both 

  • the implicit messages sent to candidates and stakeholders as well as 

  • any unintended consequences of adopting a particular assessment strategy. 

This is Messick’s (1989) notion of consequential validity

van der Vleuten (1996)의 유용성 모델 (신뢰성, 타당성, 타당성, 수용성 및 교육적 영향)은 어떤 평가 시스템의 적절성을 판단 할 수있는 유용한 모델을 제공하고있다.

van der Vleuten’s (1996) model of utility (reliability, validity, feasibility, acceptability, and educational impact) continues to provide a useful model from which to judge the adequacy of any assessment system.

교육 및 실습의 연속성 전반에 걸쳐 지속적인 학습을 촉진하는 일관되고 통합 된 평가 시스템의 생성은 다음과 같은 프로세스를 요구한다.

  • (a) 불필요한 중복을 제거하면서 성과의 여러 측면에 대해 적절하고 포괄적인 coverage를 보장하면서 후보자에게 효율적으로 제공됩니다.

  • (b) 피드백의 힘을 이용하여 학습의 우선성을 강조한다 (Boud and Molloy, 2013; Galbraith et al., 2011); 과

  • (c) 지속적인 성과 향상을 위해 학습자, 교육 프로그램 및 규제 당국간에 공유된 책임을 창출한다 (Mylopoulos and Scardamalia 2008, Bordage et al.

the creation of a coherent and integrated system of assessment that promotes ongoing learning across the continuum of training and practice requires a process that 

  • (a) is made efficient for candidates, ensuring appropriate and comprehensive coverage of many aspects of performance while eliminating unnecessary redundancy; 

  • (b) emphasizes the primacy of learning by harnessing the power of feedback (Boud and Molloy 2013; Galbraith et al. 2011); and 

  • (c) creates a shared accountability between the learner, educational programs, and regulatory authorities for engaging in continuous performance improvement (Mylopoulos and Scardamalia 2008; Bordage et al. 2013).



(1) 개념적

(1) Conceptual—issues about how, why, and when different assessment practices impact upon the culture of the profession; 

(2) 로지스틱

(2) Logistical—specific avenues of exploration through which the conceptual issues might be redressed within practical realities; and, 

(3) 시스템

(3) Systemic—cultural issues inherent in current practice and education systems that create barriers that need to be overcome.

주제1: 역량기반평가의 의도하지 않은 결과를 극복하기

Theme 1: Overcoming unintended consequences of competency-based assessment

개념적 이슈

Conceptual issues

그러나 역량 기반 평가의 공통된 모델에 내재된 것은, 의도하지 않은 바람직하지 못한 결과를 초래할 수있는 다양한 가정들이다 (Ginsburg 외. 2010). 가장 핵심은 역량이란 점검check off 할 수있는 것이라는 개념입니다. 예를 들어 학생이 "환자의 완전하고 적절한 평가를 수행 할 수있다"는 주장은 상황에 따르는 요인이 우리의 업무 수행 능력 (Eva 2003; Colliver 2002)에 중요한 역할을 한다는 강력한 문헌적 근거를을 무시합니다. 또한 일단 작업을 성취 할 수 있다면 더 이상 할 일이 없다는 암시적 메시지를 보낼 위험이 있다 (Neve and Hanks 2016; Norman et al., 2014; Newell et al., 2001).

Implicit in common models of competency-based assessment, however, are a variety of assumptions that may have unintended and undesirable consequences (Ginsburg et al. 2010). Most central is the notion that competence is something one can check off. Claiming that a student can ‘‘perform a complete and appropriate assessment of a patient,’’ for example, ignores the robust literature indicating that contextual factors play an important role in our ability to perform any task (Eva 2003; Colliver 2002) and risks sending an implicit message that once a task can be achieved there is no further work to be done (Neve and Hanks 2016; Norman et al. 2014; Newell et al. 2001).

최소한의 역량 시험에 합격 한 모든 응시자는 "competent"라는 라벨이 붙게 되며, 이렇게 될 경우 다음과 같은 현실을 간과하게 된다.

(a) 합격자 내에서 항상 상당한 성능 변동성이 있다는 사실

(b) 최고의 실력자조차도 개선 여지가 있다는 사실을 간과 

(c) 지식과 기술은 시간이 지남에 따라 표류와 열화(부식)를 겪는다는 것 (Choudhry et al., 2005; Norman et al. 2014).

The fact that every candidate who passes a minimal competence exam is effectively labeled competent overlooks the realities that 

    • (a) there is always considerable variability of performance within the passing range, 

    • (b) even the top performers have room for improvement, and 

    • (c) knowledge and skill are subject to drift and deterioration (decay) over time (Choudhry et al. 2005; Norman et al. 2014).

    • 첫째, 'competent'결정에 초점을 맞추는 것은 [더 많은 교육적 이익을 위해 사용할 수있는 진단 기회]로서가 아니라 [넘어야 할 장애물로 간주]되는 평가 프로토콜에 기여합니다.

    • 둘째, 합격 / 불합격 기준점에 초점을 맞추는 것은 어려움을 드러내고 개선을 추구하는 것의 인센티브를 없앨 뿐만 아니라, 오히려 저해합니다 (Eva 외. 2012). 검사를 통과하면 자신의 약점이 중요하지 않다는 것을 의미하게 될 수 있습니다 (Butler 1987).

    • 셋째, 이러한 역량기반 모델에서 [역량을 갖추었다고 판단 된 연수생에게 지침을 제공 할 필요가 거의 없다는 점]을 감안할 때 교육자가 제공해야한다고 느끼는 지원 정도를 감소시킬 수있다.

    • 마지막으로, 'competent'라는 레이블을 사용하면 지식과 기술이 계속 유지되어야한다는 것을 간과하게 된다(Ericsson 2004; Eva 2002). 성공적으로 시험에 합격한 것이 시험을 마친 후에도 그 material을 기억할 것이라는 표시로 보아서는 안됩니다 (Custers 2010).

    • First, focusing on a determination of ‘competent’ contributes to assessment protocols being seen as hurdles that one simply needs to get over rather than as diagnostic opportunities that can be put to use for further pedagogic benefit. 

    • Second, focusing exclusively on the pass-fail cut-point removes any incentive, and creates considerable disincentive, for disclosing difficulties and continuing to pursue improvement (Eva et al. 2012). Passing the examination may then indicate that the weaknesses one experiences are unimportant (Butler 1987). 

    • Third, such competence-based models may reduce the degree of support educators feel compelled to provide given that there is little need to offer guidance to trainees who have been deemed competent. 

    • Finally, using the label ‘competent’ overlooks the well-established view that knowledge and skills must be continuously used for them to be maintained (Ericsson 2004; Eva 2002). Having successfully crammed to pass an exam should not be viewed as an indication that one will remember the material after the exam is completed (Custers 2010).

더욱이, "competent"라는 라벨에 기초를 둔 'state of independence'는 전문 지식에 대한 현대적 견해에 반하는 것으로서, 이 견해에서는 [어느 정도의 성과를 반복적으로 재생하는 일상적 전문가routine expert]와 [지속적인 성능 향상을 위해 실천 영역 내에서 자신의 에너지를 계속해서 더 잘 이해하고 혁신하도록 재투자하는 적응적 전문가adaptive expert]를 차별화합니다 (Regehr 1994) (Mylopoulos and Regehr 2011).

Moreover, the ‘‘state of independence’’ that underlies the label of competent runs counter to modern perspectives on expertise, which differentiate between the routine expert who achieves a certain degree of performance and simply reproduces that performance repeatedly (Regehr 1994) and the adaptive expert who continuously reinvests her energies into better understanding and innovating within the domain of practice for the sake of continuous performance improvement (Mylopoulos and Regehr 2011).

확립 된 기준을 충족시키지 못하는 [소수의 개인]을 식별하기 위해 독점적으로 노력하는 집중적인 평가 노력은 [대다수의 사람들]을 위해 미래의 학습을 지도direct하는 형식적인 지침을 제공 할 수있는 기회를 제거합니다.

a state in which focusing assessment efforts on exclusively striving to identify a minority of individuals who do not meet an established threshold eliminates opportunities to provide formative guidance directing future learning for the majority.

로지스틱 이슈

Logistical considerations

의사들은 이미 과로하며 평가 수행을 담당하는 조직의 자원이 무한한 것은 아니다. 또한, [점진적 독립] (Kennedy et al. 2009)의 가치와 [성과 개선을위한 바람직한 어려움] (즉, 학습을 유도하는 방식으로 도전받는)을 감안할 때 (Guadagnoli 외, 2012, Eva 2009, Bjork 1994), 지속적으로 관찰observe받아야 하는 연수생 또는 실무자와 관련된 위험이 존재한다.

physicians are already overworked and the organizations responsible for implementation of assessment do not have endless resources. Further, given the value of progressive independence (Kennedy et al. 2009) and of desirable difficulties (i.e., being challenged in a manner that drives learning) for performance improvement (Guadagnoli et al. 2012; Eva 2009; Bjork 1994), there are dangers associated with trainees or practitioners being observed constantly.

합격 / 불합격으로 이분법 화하는 것과 달리 성과의 지속적인 성격을 받아들이는 평가 시스템은 모든 학습자가 학습 계획에 대한 소유권을 유지하도록 함으로써 이 과정을 정상화normalize하는데, 이러한 학습 계획은 (성과의 중요한 결정 요인)인 자기 개념에 대한 위협을 최소화함으로써 자신의 활동이 효율적이 되도록 유도한다. (Eva 외. 2012; Kluger and van Dijk 2010).

An assessment system that recognizes the continuous nature of performance, as opposed to dichotomizing into pass-fail, would further normalize this process such that all learners would be expected to maintain ownership over a learning plan that could efficiently guide their activities while minimizing threats to the candidates’ self-concept, an important determinant of performance (Eva et al. 2012; Kluger and van Dijk 2010).

이러한 상황에서 학습자가 받아가는 것이 형성적 발달을 통해 더 나은 환자 진료도 촉진할 것이다.

what the learner would take away from the situation to direct further formative development that would facilitate better care for patients. 

이를 통해 [평가 경험]을 [개인적 탐구 기반 학습 전략]으로 전환translate하고, 데이터 사용을 [개개인의 경험을 이해하고 개선 계획을 수립하는 아이디어]로서 통합합니다. 이상적인 세계에서 이러한 계획은 코치 또는 동료 지원 (Marsh and Roche 1997)을 통해 이루어질 것입니다.

This promotes the translation of the assessment experience into a personal inquiry based learning strategy and integrates the idea of using data to make sense of one’s experience and frame a plan for improvement. In an ideal world such planning would take place with a coach or peer support (Marsh and Roche 1997).

결과 정보를 사용하여 [candidate의 기존 경험을 환자의 이익에 활용 한 방법을 보여주도록] 만드는 [후속 평가 프로세스의 구성 요소 조정]에 활용한다면 candidate에게는 [계속적인 재투자를 요구하는 평생 노력으로 학습을 양성]할 상당한 인센티브가 생길 것입니다. 이러한 상황이라면 시험에서 통과하였기 때문에 충분히 알고 있을 것이라고 단순히 믿는 것이 아니게 된다 (Scho¨n 1983).

Using the resulting information to tailor components of subsequent assessment processes that require the candidate to demonstrate how they have utilized previous experiences to their patients’ benefit would create considerable incentive for candidates to ‘‘nurture’’ their learning as a lifelong effort requiring continuous reinvestment rather than simply trusting that they know enough because their exams have been passed (Scho¨n 1983). 

이렇게 하기 위해서는 많은 그룹에 걸쳐 평가 방법의 상당한 조화를 필요로합니다. 그러나 그러한 일관되고 통합 된 평가 시스템을 향한 노력은 평가 관행에 대한 부정적인 반응을 극복 할 잠재력을 창출 할 것이다. 이를 위해서는 학습자와 시스템 간의 공유된 책임으로서 책무성을 변화시키는 문화적 규범과 기대를 설정해야 하며(Galbraith et al., 2008), 학습의 primacy를 강조하는 방식으로 피드백을 이용해야 한다(Eva 외. 2012). 

Doing so would require considerable harmonization of assessment practices across many groups. Working towards such a coherent and integrated assessment system, however, would create the potential to overcome negative reactions to assessment practices by establishing a cultural norm and expectation that shifts accountability toward a shared responsibility between learner and system(Galbraith et al. 2008) and harnesses feedback in ways that emphasize the primacy of learning (Eva et al. 2012), which leads us to Theme 2.

주제2: 수행능력 향상을 촉진하는 동시에 퀄리티 담보를 위한 노력

Theme 2: Striving to implement quality assurance efforts while promoting performance improvement

개념적 이슈

Conceptual issues

평가는 총괄적 측정과 형성적 지침을 제시하는 이중 목적을 성취 할 수 없다고 일반적으로 믿어진다.

it is commonly believed that an assessment cannot fulfill the dual purposes of offering summative measurement and formative guidance.

그러나, 이것을 절대적인 규칙으로 취급한다면,이 구별은 해로울 수 있습니다. 이러한 구별은 [학습자를 육성하고 지원할 책임이 있는]조직에게 [효과적인 게이트 키퍼 역할]을 면제시킬 위험이 있다. 또한 [학습을 위한 평가]에 관심을 갖게 만들면서 고부담 시험에 대한 책임을 제거할 위험이 있습니다. 보다 근본적으로, 평가목적이 이중적 목적이 달성될 수 없다는 이러한 가정은 학습자의 경험에 대한 현실을 오해한 것이다. 우리는 총괄평가를 위해 공부하거나 총괄평가를 보는 것 자체가 이미 형성적 영향력을 갖는다는 것을 인정한다 (Newble and Jaeger 1983; Larsen 외 2008; Norman et al 2010). 더욱이, identity가 투자되는 작업을 수행할 경우, 어떤 평가가 "순수하게 형성적이 되려"한다고 하더라도 총괄적 판단으로서의 측면을 갖는다.

However, when treated as an absolute rule, this distinction can be detrimental. It risks absolving training organizations that are responsible for nurturing and supporting learners from serving as effective gatekeepers. It also risks removing responsibility from high stakes testing organizations to attend to assessment for learning. More fundamentally, the assumption that duality of purpose cannot be achieved simply mistakes the reality of the learner’s experience. We concede that studying or sitting a summative assessment has a formative influence (Newble and Jaeger 1983; Larsen et al. 2008; Norman et al. 2010). Further, any time one performs a task in which identity is invested there is an aspect of summative judgment even if the assessment is intended to be ‘‘purely formative.’’

따라서 질문은 그 평가가 (형식상) 총괄평가인지 평성평가인지에 대한 것이 아니라, 학습자의 마음 속에 이것이 총괄평가로 인식되는지 형성평가로 인식되는지의 정도입니다. 이와 관련하여, 보다 적절한 것은 판단에 관련된 부담stakes의 수준 (다시 말하지만, 평가 대상자의 인식상에서)입니다.

Thus the question is not whether an assessment is summative or formative, but is the extent to which summative or formative purposes are foregrounded in the mind of the learner. In this regard, a more relevant continuum is the level of the stakes involved in the judgment (again, in the perception of the person being assessed).

[시험의 목적을 형성평가와 총괄평가로 정교하지 못하게 이분화시켜버리는 것]의 문제를 더욱 악화시키는 것은 [이성적이며 중립적으로 데이터를 받아들이고 자신의 행동을 바꾸기 위해 노력하는 "자기조절적 전문직"이라는 낭만화된 construction이다. ( "Eva and Regehr 2013" ; Watling et al., 2014; Harrison et al., 2015).

Exacerbating the problems associated with the unsophisticated dichotomization of summative and formative testing purposes is the romanticized construction of the ‘‘selfregulating professional’’ as one who will rationally and neutrally accept data and strive to use it to change their own behaviour (Eva and Regehr 2013; Watling et al. 2014; Harrison et al. 2015).

그러나 자신의 정체성과 충돌하는 데이터는 FR을 위협하고 (Kluger and van Dijk 2010), 인지부조화를 발생시킴으로써 전문적 성장을 위해 최선의 방법을 사용하기로 결정하기보다는, 데이터를 평가절하하도록 만든다(Eva 외. 2012). 경험이 늘어날수록 자신감이 함께 늘어남을 고려할 때 특히 그렇습니다 (Eva 2009). FR이 피드백의 영향을 받기 위해서는 FR이 그 피드백을 수용해야합니다 (Shute 2008). FR이 피드백을 수용하기 위해서는 그 타당성과 관련해서 뿐만 아니라, 그 피드백이 FR이 더 나은 practice를 하도록 돕는 선한 목표로서 전달된다고 믿는 신뢰성이 있어야 한다(Sargeant et al., 2011; Galbraith et al 2011).

Yet, data that conflict with one’s self-identity are threatening to the individual recipient (Kluger and van Dijk 2010) and create an experience of cognitive dissonance that can make it easier to discount the data than to determine how to best use them for professional growth (Eva et al. 2012). This is especially true given the confidence that follows increasing experience (Eva 2009). For recipients to be influenced by feedback they must be receptive to it (Shute 2008). For recipients to be receptive to feedback they must deem it credible, not just with respect to its validity, but with respect to believing that it is delivered with the sincere goal of helping the recipient practice better (Sargeant et al. 2011; Galbraith et al. 2011).

이러한 신뢰성을 달성하려면 단순히 데이터가 심리분석적으로 타당하다는 것 이상의 확신을 요구합니다. 개인 수준에서 우리는 [데이터를 제공]하는 것 뿐만 아니라 [개선을 위해 외부 증거를 사용하는 방법]에 대한 지침을 제공해야합니다 (Marsh and Roche 1997). 문화적으로, 우리는 전체 퍼포먼스 수준에 걸쳐서 개선 프로세스를 일반화normalize해야 하며, 왜냐하면 현재와 같이 분포의 하위에 있는 소수의 사람들에게만 집중하는 상태에서는 다수majority의 사람들로 하여금 그 데이터에 관심을 가질 필요성 자체를 줄이기 때문이다(Kluger and van Dijk 2010, Butler 1987 ).

Achieving such credibility requires more than simply convincing the recipient that the data are psychometrically sound. At the level of the individual, we must offer not just data but also guidance regarding how to use external evidence to improve (Marsh and Roche 1997). Culturally, we must normalize the improvement process across the range of performance, because focusing attention only on those at the bottom of the distribution reduces the need for the majority of candidates to pay attention to the data available (Kluger and van Dijk 2010; Butler 1987).

기능적으로, 우리는 공유된 책임을 지닌 통합되고 지속적인 시스템을 위해 노력해야합니다. 그러기 위해서는 지금처럼 평가 그 순간(point-in-time)을 [원래 하던 습관대로 돌아가기 전에 불가피하게 처리해야 할 장애물]로 여기는 것을 넘어서야 한다.

Functionally, we must strive for an integrated and continuous system with shared accountability by focusing beyond point-in-time assessment moments that will inevitably be treated simply as hurdles to be overcome before returning to one’s normal stride.

로지스틱 문제

Logistical considerations

최근 수년간 급성장하고있는 연구 분야는 [시험이 교육적 가치를 가질 수있는 조건]을 입증하는 것입니다 (Larsen 외 2008, Kromann 외 2010, Rohrer and Pashler 2010). 예를 들어, 테스트 포맷이 인식 (예를 들어, MCQ)보다 오히려 [구성 응답 (예를 들어, 단답식 응답)]을 요구할 때, 빈번한 테스트는 보다 큰 학습 효과를 가져 오는 경향이있다. (Karpicke 및 Roediger 2008; Kornell and Son 2009) 이 현상은 더 짧고, 빈번하며, 저부담인 퀴즈가 점점 더 가치있게되는 관점을 만듭니다.

A burgeoning area of research in recent years is demonstrating the conditions under which testing can have pedagogical value (Larsen et al. 2008; Kromann et al. 2010; Rohrer and Pashler 2010). For example, more frequent testing tends to yield a greater learning effect, especially when the testing format requires constructed responses (e.g., short answers) rather than recognition (e.g., MCQs; Karpicke and Roediger 2008; Kornell and Son 2009). This phenomenon creates a perspective in which shorter, more frequent, lower stakes quizzes become increasingly valuable.

형성적 목적을 위해 총괄평가를 사용하는 것에 반대하는 이유 중 하나는 높은 수준의 평가 활동을 산출하는 고유의 비용입니다. 게이트 키핑 기능이 유지되어야하는 고부담 시험의 경우, 테스트 보안은 중요한 문제이며, 문항에 대한 피드백을 제공하게 된다면 사용할 수있는 양질의 문항 풀을 급격히 늘려야 할 수 있습니다. 유사하게, 평가가 더 작은 규모지만 더 빈번한 시험을 통해 더 지속적으로 제공된다면, 이것은 또한 이용 가능한 질문 풀의 증가를 필요로 할 것이다. 그러나 우리 전문직에서 [평가가 건강 관리 개선의 길을 밝혀 준다고 진정으로 믿는다면] 이는 가치있는 투자입니다. 또한 AIG (automatic item generation) 프로세스 (Gierl 및 Lai 2013, Gierl 외. 2012)의 신속한 개발로 새로운 테스트가 상대적으로 효율적으로 구축 될 수 있도록함으로써 테스트 보안 문제를 완화 할 수 있습니다.

One of the reasons offered against using summative assessments for formative purposes is the cost inherent in generating a high quality assessment exercise. If the gatekeeping function is to be maintained in high stakes assessments, test security is an issue and providing feedback on items may mean radically increasing the pool of quality items available for use. Similarly, if assessment is to be offered more continuously through smaller scale but more frequent testing, this too would likely require an increase in the pool of questions available. However, if the profession truly believes that assessment illuminates a road to improved healthcare, this is an investment worth making. Further, this might become more feasible with the rapid developments of automatic item generation (AIG) processes (Gierl and Lai 2013; Gierl et al. 2012), mitigating test security issues by allowing new tests to be built relatively efficiently.

개인맞춤식 테스트는 학습을 지원하고 deliberate practice에 참여하는 습관을 창출합니다. 이상적인 세계에서, 실무자가 전자 건강 기록, 처방 습관 등에 기초한 실무 범위를 항목 데이터베이스를 정의하는 루브릭과 동기화 할 수 있도록 항목 데이터베이스가 작성된다면, 개선 메커니즘에 관한 최적의 지침을 제시함으로써 형성평가(의 효과)를 최대화할 수 있습니다 . 이러한 것은 보다 더 현실에 가까이 와있는데, 20 년 전보다 의사가 의사의 진료에 대해 이용할 수있는 데이터의 양과 질이 증가했기 때문이다(Ellaway et al. 2014).

Customized tests would both support learning and create habits of engaging in deliberate practice improvement activities. In an ideal world, item databases would be created that would allow practitioners to sync their current scope of practice (based on electronic health records, prescription habits, etc.) to a rubric that defines the item database such that formative tests could be maximized to yield optimal guidance regarding mechanisms of improvement. This is closer to reality now than it was 20 years ago as the amount and quality of data that physicians have available about their practice is increasing (Ellaway et al. 2014).

이는 시험의 범위를 [응시자가 시험을 위해 물리적으로 시험장에 앉아있어야 하는 single moment] 바깥으로 확대시킨다. 예를 들어, OSCE 스테이션은 각 응시자의 실제 환자 조우에서 수집 한 데이터를 검토하고 직장 기반 평가 및 환자 결과 평가에 대한 경험을 어떻게 이해했는지 보여줄 것을 요구할 수 있습니다.

This would extend the scope of examinations away from the single moment in time in which the candidate is physically present for the exam. An OSCE station, for example, could involve review of data collected from each candidate’s actual patient encounters and require them to demonstrate how they have understood their experiences with workplace-based assessments and evaluation of patient outcomes.

이와 유사하게, 학부의학교육이나 졸업후의학교육 초기에 '진단적 OSCE'를 생성하는 것은 향후 development로 인해 이익을 얻을 수 있는 성과 측면을 식별하기 위해 의도적으로 사용될 수 있으며, 후속 평가 노력을 조정할 수있는 기초를 제공할 수 있습니다. 이상적으로 이 과정은 전공의 수련 말미에 반복 될 것이며, 두 경우 모두 후보자의 실천 개념화를 더 깊이 탐구하도록 해주면서 (Bogo et al. 2011), 동시에 (시험의 motivation이 시험을 통과해야하는 필요성보다는 후속 조치를 입증해야 할 필요가 더 강조된다는 점에서평가의 부담을 낮추게 될 것이다. 이 프로세스들을 어떻게 authentic하게 사용되는 방식으로 구현하는지는 Theme 3의 초점이다.

Similarly, the generation of a ‘‘Diagnostic OSCE’’ late in undergraduate MD training or early in postgraduate training could be used deliberately to identify aspects of performance that would benefit from further development and could form the basis for tailoring subsequent assessment efforts. Ideally this process would be repeated at the end of residency and, in both instances, would allow further exploration of the candidates’ conceptualization of practice (Bogo et al. 2011) while enabling the stakes of any given assessment to be lowered because motivation would come from the need to demonstrate follow-up rather than the need to pass the exam. How to implement such processes in a manner that will be deemed authentic, and therefore used, is the focus of Theme 3.

주제3: 평가와 진료를 authentic하게 연결하기

Theme 3: Authentically linking assessment and practice

개념적 이슈

Conceptual issues

평가시스템이 교육 도구로서 최대한 효과적이기 위해서는, 모든 평가 시스템이 가능한 한 실무의 현실을 모델링해야합니다. 그러한 align은 수용가능성을 증가시키고, 타당성 주장은 훨씬 더 신뢰성있게 만든다 (Bernabeo et al., 2013). Authenticity란 연습을 모방하기 위해 고충실도 시뮬레이션을 사용하는 것을 의미하지는 않습니다 (Norman 외. 2012). 오히려 평가 프로토콜이 실제 실천의 영역을 정확히 반영 할 때 authenticity가 얻어 지므로 "시험 공부"또는 "시스템을 겪어보는 것"이 (현실에서) 잘 practice하는 법을 배우는 것과 같아야 한다.

To be maximally effective as an educational tool, any system of assessment should model the realities of practice as closely as possible. Such alignment increases acceptability and makes claims of validity much more credible (Bernabeo et al. 2013). Authenticity does not mean using high fidelity simulation to mimic practice (Norman et al. 2012). Rather, authenticity is achieved when assessment protocols accurately reflect the domain of practice such that ‘‘studying to the test’’ or learning to ‘‘game the system’’ equates with learning to practice well. 

우리는 임상 프리셉터가 그들의 연수생에게 다음처럼 발했다는 것을 듣곤 한다. "임상이라면 실제로는 X를 할 것이지만, 시험을 위해서는 Y를해야합니다. "그러한 단절은 전체 시스템을 약화시키고, 평가를 그저 자신을 역량있는 것처럼 보이게 하려면 극복해야 할 장애물로 간주하는 문화로 만든다.

Too often we hear statements from clinical preceptors to their trainees along the lines of ‘‘in reality I would do X, but for your exam you should do Y.’’ Such disconnects threaten to undermine the entire system and create a culture in which assessments are viewed merely as hurdles to be overcome to prove oneself competent.

평가 프로세스는 이해 관계자가 향상시키고자 하는 업무의 측면을 정확히 반영해야 할 뿐만 아니라, 평가 후보자는 자신의 행동이 "전형적인" 실천practice와 왜 다른지, 또는 왜 행동이 가변적일 수 있는지에 대한 이해를 표현할 수 있어야합니다. 다시 말해서, 평가상황에서의 행동은 맥락의 차이로 인해 정상적인normal 행동과 달라지는 것이 적절할 수 있습니다. 예를 들어, 농촌 및 외딴 지역에서의 의료는 대도시 삼차 진료센터에서 수행하는 것과 같지 않으며, 평가 방법은 후보자가 자신의 업무 수행을 할 때 variation에 대한 적절한(즉, 안전한) 인식을 가지고 있는지를 가지고 있어야 한다.

It is important not only that assessment processes accurately reflect the aspects of practice that stakeholders desire to promote, but assessment candidates should be able to express an understanding of why their behavior might differ in ‘‘typical’’ practice or why their behaviour might be variable within their practice. In other words, it might be appropriate for assessment-driven behavior to deviate from one’s normal practice because context matters. Practicing in rural and remote areas, for example, will not be the same as practicing in large urban academic tertiary care centres and assessment practices should provide some sense of whether or not candidates demonstrate appropriate (i.e., safe) awareness of variation in their practice.

그것은 [평가되는 개인의 눈에 진정으로 authentic한 평가가 될 수있는 지역적 다양성에 대한 의미있는 이해]와 [practice의 추상적 기준을 결합]함으로써 도달가능할 것이다.

It is only by marrying abstract standards of practice with meaningful understanding of local variability that assessment can be truly authentic in the eyes of the individual being assessed.

직장 기반 평가 방법은 현재 다양한 실습 차원을 평가할 잠재력과 일상적 활동에서 개인이 실제로하는 것을 잘 반영 할 수있는 능력이 있음에도 불구하고, 현재 대부분의 고부담 시험에서 평가 활동의 일부가 아닙니다.

Workplace-based assessment practices are not currently part of the most high stakes assessment activities despite their potential for assessing a greater variety of dimensions of practice and their capacity to better reflect what individuals actually do in their day-to-day activity.

그러나 많은 평가자, 로테이션, 사례에 대한 데이터 수집은 충분한 신뢰성을 제공하는 경향이 있으며 (Ginsburg 외. 2013), 의견의 uniformity가 모든 맥락에서 궁극적 인 목표가 될 수는 없다 (Gingerich et al., 2014).

but collection of data over many evaluators, rotations, and cases does tend to yield sufficient reliability (Ginsburg et al. 2013) and uniformity of opinion may not be the ultimate goal in all contexts (Gingerich et al. 2014).

로지스틱 문제

Logistical considerations

근본적으로 authentic한 평가를 수행하려면, 평가는 [clear하지 않으면서] 동시에 [명백히 blueprint에 따라 만들어진] 임상 시나리오에 참여해야합니다.

At its root, making assessment authentic requires having candidates engage with clinical scenarios that are not clear and obvious cut-outs from a blueprint. 

in vivo에서는 (실습 데이터, 동료 평가 또는 포트폴리오 사용과 같은) 업무 기반 상황에서의 평가가 (데이터가 개인의 실천에 근거했기 때문에) 그것이 authentic한 것이 마치 당연한 것처럼 보일 수 있다. 그러나 고부담 평가이며 일시적인 평가에서는, (시스템이 외부 검토를 위해 글을 쓰도록 만들 때) 개인의 '성찰'조차도 허구가 될 수 있습니다 (Hays and Gay 2011).

In in vivo, work-based, situations such as using practice data, peer review, or portfolios, generating ‘‘authentic’’ assessment would seem straightforward as the data are by definition based on the individual’s practice. When the stakes are high and momentary, however, even one’s personal ‘‘reflections’’ can become fictional when the system encourages them to be written for external review (Hays and Gay 2011). 

그러므로 우리는 학습자가 포트폴리오에 대한 통제를 갖도로 함으로써(Galbraith 외 2008) 학습자가 책임감을 갖게하고 (van Tartwijk and Driessen 2009), 연습 패턴, 성공 사례를 숙의적으로 탐구 할 수있게하는 것이 중요하다.  또한 그리고 어떤 하나의 평가에 순간에 큰 비중을 둘 때 야기 될 수있는 반향repercussion에 대한 두려움이 없게 해주어야 한다.

We see value, therefore, in leaving control of learner portfolios (Galbraith et al. 2008) in the hands of the learner to engender a sense of accountability and responsibility (van Tartwijk and Driessen 2009) while also enabling deliberate exploration of practice patterns, successes, and concerns without fear of the repercussions that can arise from placing great weight on any one assessment moment.

OSCE와 같은 ex vivo 평가 환경에서, 케이스는 불확실성을 허용해야하며 "이번 스테이션은 나쁜소식 전하기이다"와 같은 명시적 표현을 피해야합니다. 그렇게하면 절대 표준화를 희생하더라도 다중 경로가있는 스테이션을 허용 할 수 있습니다 (Hodges 2003).

In ex vivo assessment situations such as OSCEs, the cases must allow uncertainty and avoid prompting statements such as ‘‘here comes the breaking bad news station.’’ Doing so might involve allowing stations with multiple pathways even at the cost of absolute standardization (Hodges 2003).

또한 한 스테이션 내에서, 표준화 된 환자가 초반에 가장 뚜렷해보였던 진단과 모순되는 정보를 중간에 제공하도록 훈련받을 수도 있다. 그렇게함으로써 후보자의 첫 인상을 극복하고 조기 종결에 대한 먹이감이 되는 것을 피할 수있는 능력을 보여줄 수있다. (Eva and Cunnington 2006).

Within station, it is also conceivable that standardized patients could be trained to offer information midway through a case that contradicts the most apparent diagnosis from the early portion of the encounter. Doing so would further provide some indication of candidates’ capacity to overcome their first impressions and avoid falling prey to premature closure (Eva and Cunnington 2006).

동시에, 우리는 행동의 원인을 추론하는 경향이 있는데, 올바른 일이 제대로 이루어 졌다면 올바른 이유가 있다고 믿는다 (Ginsburg 외 2004). 환경이 성과에 영향을 미친다는 사실을 감안할 때 피험자의 어떤 행동이 어떠한 추론 단계를 거쳐서 그렇게 되었는지를 탐구하는 것이 가치있을 수있다 (Bogo et al., 2011; Kogan et al., Williams 외 2014). 이것은 시뮬레이션이 끝난 후에 발표 세션과 유사한 post-encounter 프로브를 통해 수행 될 수 있는데, 그 이유는 후보자가 특정 행동이 왜 수행되었는지 (Williams 외 2014), 대체 행동이 제외 된 이유는 무엇인지, 맥락이 달랐다면 의사 결정이 어떻게 달랐을 것인지 등을 물어볼 수 있습니다.

At the same time, there is a tendency to infer the cause of behaviours, trusting that the right things, when done, were done for the right reasons (Ginsburg et al. 2004). Given that context influences performance there might be value in establishing opportunities for examiners to explore the reasoning underlying candidates’ behaviour (Bogo et al. 2011; Kogan et al. 2011; Williams et al. 2014). This could be done through post-encounter probes that are akin to debriefing sessions post simulation encounters in that both require the candidate to explain 

    • why certain things were done (Williams et al. 2014), 

    • why alternative actions were ruled out, and 

    • if or how decision-making might have changed if the context had differed in specified ways.

시스템 고려사항

Systemic considerations

이러한 성찰을 제공함에있어서, 우리는 훌륭한 평가가 시간과 자원을 많이 필요로한다는 것을 충분히 인식합니다. 여기에서 제기 된 문제의 일반적인 성격을 감안할 때, 특정 설정이나 교육 수준에 특별한 초점을 두지 않고, 설명 된 개념의 비용을 정밀하게 예상하는 것은 불가능합니다.

In offering these reflections we fully recognize that good assessment is time and resource intensive. Given the generic nature of the issues raised here, without specific focus on any one setting or level of training, it is impossible to specify with any precision the cost of the concepts outlined.

평가 커뮤니티는 존재하지도 않는 '표준 관행'에 기반한 총괄적 프로세스를 계속 강조함으로써, 부자연스러운 고부담 시험을 창출합니다. 평가를 문지기 역할뿐만 아니라 추후 학습을 형성 할 수있는 기회 측면에서 현재의 평가 방법을 개선하는 방법에 대해 생각해서는 안된다는 것을 제안하는 평가 (환자 보호)에 대한 추론과는 정반대로 보인다. 1950 년대 이후 Multiple Choice Question 기술 개발에 막대한 기금이 투입된 것처럼 리더십이 지금 요구되고 있습니다.

the assessment community continues to emphasize summative processes based on a ‘standard practice’ that does not exist, thereby creating an unnatural, high stakes test of competence. It seems antithetical to the very reasoning behind assessment (the protection of patients) to suggest that we should not think about how to improve current assessment practices, not only in terms of their role in gatekeeping but also in terms of their opportunities for shaping further learning. Leadership is called for now, just as it was when substantial funds were devoted to the development of Multiple Choice Question technology from the 1950s onward.

의료 훈련 시스템에 대한 공통적 인 비판은 전임상에서 임상실습으로, 임상실습에서 졸업후교육으로, 그리고 졸업후교육에서 독립적 진료에 이르기까지 경험하게 되는 급격한 전환이다 (Jarvis-Selinger 외, 2012, Teunissen and Westerman 2011). 어느 정도의 전이transition의 통증은 피할 수 없지만, 응집력있는 평가 시스템을 구축하려는 노력으로 인해 어려움이 줄어들 수 있습니다. 감독자, 멘토, 프로그램 디렉터 및 대학이 각 개인의 상대적 강점 및 약점에 관한 고품질 정보를받을 수 있도록 지원할 필요가 있다.

A common criticism of the medical training system is the sharp transitions experienced when moving from pre-clerkship to clerkship, from clerkship to postgraduate training, and from postgraduate training to practice (Jarvis-Selinger et al. 2012; Teunissen and Westerman 2011). Some degree of transition pain is inevitable, but the challenges might be reduced by efforts to create a cohesive system of assessment. Enabling supervisors, mentors, program directors, and colleges to receive high quality information regarding each individual’s relative strengths and weaknesses

능동적 인 참여를 장려하기 위해서는 [데이터 및 candidate 응답을 지속적인 전문 개발이 진행되고 있다는 증거로 인정]하고, [응시자의 경험이 의사가 참여하는 관행을 실제적으로 반영]하여 [환자에게 명확한 관련성을 갖는 보상 구조]가 필요합니다. 따라서 우리는 이러한 변화 과정을 연수생과 실무자에게 부과되는 탑다운 운동으로 보지 않으며, 환자를 혜택을주는 진정한 학습자 참여를위한 공동 생산적인 집단 움직임으로 간주합니다.

Encouraging active engagement will require a reward structure that allows data and candidate responses to be recognized as evidence that continuing professional development is being undertaken and that the candidate experiences authentically reflect the practice in which physicians are engaged, thereby having clear relevance to their patients. Thus, we do not see this process of change as a top down exercise that is imposed upon trainees and practitioners but rather as a co-productive collective exercise that truly engages learners in benefiting patients.



건강 전문 평가에서의 우수 사례 개념은 단순히 품질 향상 및 환자 안전을 촉진하는 프로세스를 향한 프로세스를 어떻게 그리고 어떻게 보여줄지에 초점을 맞추는 것에서 벗어나 진화하고 있습니다. 지역 EMR 및 대규모 임상 데이터베이스를 통해보다 강력하고, 시기 적절한 퍼포먼스 측정이 가능 해지고 있습니다. 이러한 형태의 정보는 의사의 진료에 대해서 실시간으로 authentic 'window'를 제공 할 수있는 잠재력을 갖고 있으며, 전통적인 평가 방법에 독점적으로 의존하는 것이 적절한가에 대한 의문을 제기하고 있습니다.

Conceptions of best practice in health professional assessment are evolving away from simply focusing on ‘‘knows how and shows how’’ processes towards processes that catalyze quality improvement and patient safety. There is growing availability of more robust and timely performance measurement through local Electronic Medical Records and large clinical databases. These forms of information are calling into question the exclusive reliance on traditional assessment approaches thanks to their potential to provide a realtime authentic ‘‘window’’ into a physician’s practice.

1. 지식 테스트를 넘어선 평가의 기반 확대.

2. 평가 기관이 적절하고 의미있는 추론을 이끌어 낼 수 있도록 데이터 수집 및 의사 결정 관행에 엄격하게 집중

3. 헬스케어의 프로세스와 성과에 대한 강조. 성과의 관점에서 누가 더 잘 수행 할 것이며, 누가 더 발전해야 하는지를 예측하는 평가 능력의 강화.

4. 훈련 연속체에 걸쳐 일관되고 통합 된 평가 시스템을 구축하여 실습하기.

5. 학습의 중요성을 평가의 불가분의 일부로 강조;

6. 피드백의 힘을 활용하라. 

7. 개인과 교육 시스템 간의 책임 공유 모델로 책임 성을 옮김.

1. Broadening the base of assessment beyond knowledge tests;

2. Rigorously focusing data collection and decision-making practices in a manner that enables the assessment body to draw relevant and meaningful inferences;

3. Adding emphasis on healthcare processes and outcomes, including strengthening of the ability of the assessments to predict who will perform well against those outcomes and who will further develop in their ability after training;

4. Building a coherent and integrated system of assessment across the continuum of training to practice;

5. Emphasizing the primacy of learning as an integral part of assessment;

6. Harnessing the power of feedback; and

7. Shifting accountability towards a model of shared responsibility between the individual and the educational system.

여기에 요약 된 방식으로 평가 방법을 지속적으로 발전 시키려면 시간, 에너지 및 자원이 필요합니다. 그러나 이러한 문제를 해결하기 전까지, 환자의 안전 및 의사의 면허 및 인증에 대한 문제는 끊이지 않을 것이다.

Continuing the evolution of assessment practices in the manner outlined here will require time, energy, and resources. However, patient safety challenges and the licensing and certification of physicians are not going to stop while these issues are resolved.

이러한 모든 노력의 근본은 . (Mann et al., 2011).

  • 질담보 보다는 질향상

  • 신뢰도 보다는 유용성

  • 측정의 정밀함 보다는 실천가능함

  • 의사가 잘하기를 바라는 것보다는 어떻게 실제로 하고있는지를 말해주는 것.

Fundamental to all of these efforts is that we avoid confusing 

quality assurance with quality improvement

reliability with usefulness

precision of measurement with being actionable and 

that we avoid confusing 

the desire on the part of practitioners to practice well with the desire to be told how they are doing (Mann et al. 2011).

Bordage, G., Meguerditchian, A. N., &Tamblyn, R. (2013). Avoidable adverse events: A content analysis of a national qualifying examination. Academic Medicine, 88, 1493–1498. XXX

Hays, R., & Gay, S. (2011). Reflection or ‘pre-reflection’: What are we actually measuring in reflective practice? Medical Education, 45(2), 116–118.

Mann, K. V., van der Vleuten, C., Eva, K., Armson, H., Chesluk, B., Dornan, T., et al. (2011). Tensions in informed self-assessment: How the desire for feedback and reticence to collect and use it conflict. Academic Medicine, 86, 1120–1127.

 2016 Oct;21(4):897-913. doi: 10.1007/s10459-015-9653-6. Epub 2015 Nov 21.

Towards a program of assessment for health professionals: from training into practice.

Author information

Centre for Health Education Scholarship, University of British Columbia, JPPN 3324, 910 West 10th Avenue, Vancouver, BC, V5Z 1M9, Canada. kevin.eva@ubc.ca.
University of Illinois at Chicago, Chicago, IL, USA.
Royal College of Physicians and Surgeons of Canada, Ottawa, ON, Canada.
National Board of Medical Examiners, Philadelphia, PA, USA.
University of Toronto, Toronto, ON, Canada.
Accreditation Council for Graduate Medical Education, Chicago, IL, USA.
Centre for Health Education Scholarship, University of British Columbia, JPPN 3324, 910 West 10th Avenue, Vancouver, BC, V5Z 1M9, Canada.


Despite multifaceted attempts to "protect the public," including the implementation of various assessment practices designed to identify individuals at all stages of training and practice who underperform, profound deficiencies in quality and safety continue to plague the healthcare system. The purpose of this reflections paper is to cast a critical lens on current assessment practices and to offer insights into ways in which they might be adapted to ensure alignment with modern conceptions of health professional education for the ultimate goal of improved healthcare. Three dominant themes will be addressed: (1) The need to redress unintended consequences of competency-based assessment; (2) The potential to design assessment systems that facilitate performance improvement; and (3) The importance of ensuring authentic linkage between assessment and practice. Several principles cut across each of these themes and represent the foundational goals we would put forward as signposts for decision making about the continued evolution of assessment practices in the health professions: (1) Increasing opportunities to promote learning rather than simply measuring performance; (2) Enabling integration across stages of training and practice; and (3) Reinforcing point-in-time assessments with continuous professional development in a way that enhances shared responsibility and accountability between practitioners, educational programs, and testing organizations. Many of the ideas generated represent suggestions for strategies to pilot test, for infrastructure to build, and for harmonization across groups to be enabled. These include novel strategies for OSCE station development, formative (diagnostic) assessment protocols tailored to shed light on the practices of individual clinicians, the use of continuous workplace-based assessment, and broadening the focus of high-stakes decision making beyond determining who passes and who fails. We conclude with reflections on systemic (i.e., cultural) barriers that may need to be overcome to move towards a more integrated, efficient, and effective system of assessment.


Assessment; Competency-based education; Continuing professional development; Health professional education


유의미한 수련생 평가를 위하여: 프로세스에 대한 참가자 인식의 영향(Adv in Health Sci Educ, 2012)

Toward meaningful evaluation of medical trainees: the influence of participants’ perceptions of the process

Christopher J. Watling • Lorelei Lingard



학습자의 임상 수행능력을 평가하기위한 시스템은 UME든 GME 환경에서든 의학 분야의 모든 교육 프로그램의 필수 요소입니다. 연수생 평가는 여러 가지 중요한 목적을 제공합니다.

Systems for evaluating the clinical performance of learners are essential elements of all training programs in medicine, whether in undergraduate or postgraduate settings. Evaluation of trainees serves a number of important purposes.

  • 학생이나 레지던트에 대한 진급 결정, 자격 시험을 볼 준비가 되었는지에 대한 허용, 상급 연수를 위한 후보자 선정 등(Gray 1996, Epstein 2007).

determine annual promotion for students or residents, permit decision-making about trainee readiness to undertake certifying examinations, and facilitate the choice of candidates for advanced training (Gray 1996; Epstein 2007).

  • 무능한 연수생을 찾아 내고 제거함으로써 사회적 의무를 이행하고 환자 안전에 기여한다 (Short 1993; Epstein 2007; Krupat and Dienstag 2009).

serve a societal obligation and contribute to patient safety by facilitating the identification and removal of trainees who are incompetent (Short 1993; Epstein 2007; Krupat and Dienstag 2009).

  • 학습의 방향과 동기 부여를 제공함으로써 연수생의 전문성 개발을 촉진한다. (Epstein 2007, Krupat 및 Dienstag 2009).

foster the professional development of trainees by providing direction and motivation for learning. (Epstein 2007; Krupat and Dienstag 2009).

의학은 관찰기반 평가를 중시한다.

Medicine values observation-based evaluation

연수생 평가를위한 도구로서의 직접 관찰은 의학 분야에서 오랜 역사를 지니고 있습니다. 사실, 직접 관찰은 "의학 교육 및 견습 과정에 포함되어 있다"고 정확하게 지적한다.

Direct observation as a tool for trainee assessment has a long history in medicine. Indeed, as Fromme et al. (2009) accurately points out, direct observation is ‘‘embedded in the medical education and apprenticeship process’’,

수련중평가(in-training evaluation)(turnbull 등, 1998)이라고 불리는 평가는 특히 레지던트 수준에서 널리 활용중이며, 이것은 실제 임상 환경에서 진행중인 성과 학습자를 관찰하고 체계적으로 문서화하는 프로세스이다.

This process of observing and systematically documenting the ongoing performance learners in real clinical settings, termed in-training evaluation (Turnbull et al. 1998), is particularly prevalent at the residency level.

2008 년 캐나다 레지던트 교육 프로그램에 대한 조사에서 

  • 프로그램의 92 % 이상이 ITER (In-training evaluation report)를 사용하여 모든 CanMEDS 역할을 평가 한 것으로 나타났습니다. 

  • 이에 비해 두 번째로 많이 사용되는 도구 인 구술 시험은 평가 대상 CanMEDS 역할에 따라 프로그램의 28.2-80.5 %가 사용되었으며, 

  • OSCE는 프로그램의 16.1-45.6 %에서 사용되었습니다. (Chou 외. 2008).

A 2008 survey of Canadian residency training programs found that over 92% of programs used in-training evaluation reports (ITERs) to evaluate all the CanMEDS roles. In comparison, oral examinations, the second most popular tool, were used by 28.2–80.5% of programs, depending on the CanMEDS role being evaluated, and OSCEs were used by 16.1–45.6%of programs. (Chou et al. 2008).

ITER는 문제가 많다.

In-training evaluation is problematic

ITER에 대한 오랜 전통과 폭 넓은 의존에도 불구하고, 특히 정확성과 신뢰성의 영역에서, 수행능력 평가 방법의 여러 단점이 확인되었습니다. Barrows (1986)는 학부 환경에서 이러한 한계에 대해 논평했다.

Despite the long-established and widespread reliance on in-training evaluation, numerous shortcomings of this method of performance assessment have been identified, particularly in the realm of accuracy and reliability. Barrows (1986), commented on these limitations in the undergraduate setting.

Awad 등은 외과적 지식의 주관적 측정과 객관적 측정 간의 매우 열악한 상관 관계를 발견했다. 또한 학생들의 평가의 한 부분으로서 지식의 주관적인 평가를 포함하는 것의 가치에 대해서도 의문을 제기했다.

Finding a very poor correlation between subjective and objective measures of surgical knowledge, Awad et al. (2002) questioned the value of even including subjective assessments of knowledge as part of the students’ evaluations.

임상 기술 평가의 정확성에 관한 유사한 우려가 레지던트 수련단계에서도 확인되었습니다. Kolars et al. (2003)

Similar concerns regarding the accuracy of assessment of clinical skill have been identified at the residency level. Kolars et al. (2003)

전반적으로 교수진이 레지던트의 의학지식을 평가하는 능력은 매우 부족하며, 교수 평가와 훈련 중 시험 점수의 평균 상관 관계는 0.30에 불과합니다. 또한 레지던트의 의학 지식에 대한 교수들의 평가는 레지던트의 다른 역량 분야에 대한 평가와 높은 상관 관계를 보이며, 이는 지식이 다른 역량과 확실하게 구분될 수 없음을 시사합니다. 이처럼, 여러 근거에 따르면 교수 평가의 정확성에 상당한 의심이 있음에도 불구하고, 교수와 레지던트 모두는 교수가 레지던트의 지식을 정확히 평가할 수 있다고 믿고 있으며, 전통적인 ITER에 대한 강한 믿음을 드러낸다.

Overall, the ability of faculty to evaluate the medical knowledge of their residents was found to be quite limited, with a mean correlation between faculty evaluations and in-training examination scores of only 0.30. Furthermore, faculty ratings of residents’ medical knowledge were highly correlated with their ratings of residents in the other competency areas they were asked to evaluate, suggesting an inability to distinguish reliably among the different competencies. Of interest, both faculty and residents expressed a high degree of confidence in the ability of faculty to make accurate assessments of residents’ medical knowledge, suggesting a strong faith in the tradition of in-training evaluation, despite evidence that sheds considerable doubt on its accuracy.

분명히, 일부 연구는 레지던트의 임상 능력을 평가하는 방법으로서 ITER의 타당성에 대해 보다 긍정적 결론에 이르기도 한다.

Admittedly, some studies have reached more favourable conclusions about the validity of the ITER as a method of assessing the clinical competence of residents.

그러나 이러한 연구에서조차 ITER의 한계를 지적했다. 임상 진료의 아홉 개 영역에 걸친 레지던트의 평가는 영역 간 높은 상관 관계를 가지고 있었고, 즉 평가자는 다양한 역량을 구별하지 못했으며, 평가자는 각 역량을 개별적으로 평가하기보다는 레지던트에 대한 전반적 인상을 형성하고, 이에 따라 모든 역량을 평가했음을 제안한다. 저자들은 ITER이 전반적인 임상 수행을 평가하는 데 유효하지만, 개별 레지던트가 가진 특정 영역에서의 임상 역량에 대한 피드백을 제공하는 것으로는 제한적일 수 있다고 결론 지었다.

However, even this reasonably positive study sounded a note of caution about the limitations of the ITER. The ratings of residents across nine dimensions of clinical care were highly correlated, and the instrument did not distinguish among these various competencies, again suggesting that evaluators formed a global impression of a resident and rated them accordingly across all competencies, rather than evaluating each competency individually. The authors concluded that the ITER, although valid for assessing overall clinical performance, may be of limited value in providing feedback in specific areas of clinical competence to individual residents.

역량 기반 평가에 대한 국제적인 경향 (Davis and Harden 2003)과 함께 ITER에 크게 의존하는 평가 시스템에는 문제가 있습니다.

With an international trend toward competency-based evaluation (Davis and Harden 2003), a system of evaluation that relies heavily on ITERs is problematic.

문제는 인식이다.

Perceptions matter

그러나 평가가 건전한sound 관찰 및 평가 방법을 기반으로 하는 경우에 조차, 피평가자의 인식은 해당 피드백의 유용성에 큰 영향을 미칠 수 있습니다.

Even when evaluation is based upon sound observation and assessment methods, however, the perceptions of those being evaluated can profoundly affect the usefulness of that feedback.

피드백에 대한 수령자 인식의 중요성은 고등 교육 문헌에서 인정되었습니다. Higgins et al. (2001)은 감정, 정체성, 권위, 주관 및 담론의 중요한 영향이 평가 피드백 과정에 미치는 영향에 주목했다. 요크 (Yorke, 2003)는 "학생들의 피드백 수용이 중요하다는 것은 아무리 강조해도 부족함이 없다"면서 학생들의 평가에 대한 해석이 학습에 중요한 영향을 미친다고 지적했다.

The importance of recipient perceptions of feedback has been recognized in the higher education literature. Higgins et al. (2001) noted the important influences of ‘‘emotion, identity, power, authority, subjectivity, and discourse’’ on the process of assessment feedback. Yorke (2003), commented that ‘‘the importance of the student’s reception of feedback cannot be overstated,’’ and noted that student interpretation of assessment was a key influence on learning.

산업 심리학 영역에서는 성과 평가에 대한 직원의 태도와 인식이 오랫동안 연구 관심에 부합하는 것으로 인식되어 왔습니다.

In the industrial psychology realm, employees’ attitudes towards and perceptions of performance appraisal have long been recognized as deserving of research attention.

Lawler (1967). Lawler는 "평가는 진공상태에서 작동하는 것이 아니다"라면서, 성과 평가 시스템에 대한 태도를 형성할 뿐만 아니라, 그러한 시스템의 타당성에 영향을 미치는 조직 및 개인 요인에 주의를 기울일 것을 주장했다. (Lawler 1967).

Lawler (1967). Commenting that ‘‘a rating system doesnot exist in a vacuum’’, Lawler recognized the importance of attending to organizational and individual factors shaping attitudes toward systems of performance evaluation and influencing the validity of such systems. (Lawler 1967).

메이어 (Meyer, 1975)는 대부분의 직원들이 스스로는 평균보다 뛰어나다고 생각하기 때문에 "괜찮음"이라고 표현되는 피드백은 일반적으로 부정적인 것으로 여겨졌다. Mowday (1983)는, "부정적인 피드백은 종종 정확하게 인식되지 않는다"는 Ilgen (1979)의 견해를 지지하며, 자기방어 메커니즘으로 인해 부정적인 피드백을 받으면 자신보다 외부 요인을 탓할 것이라고 제안했다.

Meyer (1975) found that most employees considered themselves to be above-average performers, and so feedback that one is ‘‘satisfactory’’ was commonly experienced as negative. Mowday (1983), echoing Ilgen’s (1979) notion that negative feedback was often not perceived accurately, suggested that ego-defense mechanisms would lead individuals to blame external factors rather than themselves for negative feedback.

Dipboye와 de Pontbriand (1981)는 근로자employee가 불리하다고 인식한 성과에 대한 피드백은 근로자로 하여금 그러한 평가 과정에 대한 부정적인 견해를 형성하게하고, 피드백에 대해 수용 할 가능성이 낮출 수 있다고 지적했다. 또 다른 연구에서 MBA 학생들은 negative한 360도 피드백은 부정확하고 유용하지 않은 것으로 인식하고, 개선과 인정awareness보다는 분노와 낙담으로 반응했습니다. (Brett and Atwater 2001). 퍼포먼스에 문제가 있어서 피드백을 가장 많이 필요로하는 사람들이 오히려 가장 수용성이 낮으며, 피드백의 유용성을 가장 알아채지 못한다.

Dipboye and de Pontbriand (1981) indicated that feedback on performance perceived by an employee as unfavourable could lead the employee to form a negative opinion of the appraisal process, rendering them less likely to be receptive to such feedback. In another study, MBA students perceived negative 360  feedback as neither accurate nor useful, and reacted to it with anger and discouragement rather than enlightenment and awareness. (Brett and Atwater 2001). People who need the feedback most because of performance problems may be least receptive to it and may find it least useful.

과제 특이적이지 못하고 개인 일반에 대한 비판으로 인식되는 피드백은 분노, 좌절감 또는 기타 부정적인 감정을 유발하여 피드백의 유용성을 감소시킬 수 있습니다. 요컨대, 자존감을 위협하는 피드백은 덜 효과적입니다. (Kluger and DeNisi 1996).

Feedback that is perceived not as task-specific but rather as a generalized criticism of the individual may lead to anger, frustration, or other negative emotions, reducing the usefulness of the feedback. In short, feedback that threatens self-esteem is less effective. (Kluger and DeNisi 1996).

학습자의 인식이 결정적 요인이다.

Medical learners’ perceptions are critical

내과 의사 레지던트에 대한 한 가지 설문 조사에 따르면, 레지던트 중 단지 8 %만이 평가 과정에 "매우 만족"했다 (Isaacson et al., 1998). 그러나 평가 프로세스가 대체로 불만족스러울 때, 평가가 레지던트의 학습을 촉진 할 수 있는 능력이 있는지에 대한 의문이 제기되는 것은 당연하다. 360도 피드백 장치의 사용을 설명하는 연구에서 Higgins et al. (2004)는 평가 과정과 관련하여 레지던트들 사이에서 고도의 방어적 태도가 있으며, 의사가 아닌 사람이 주는 피드백을 기각하는 강한 경향이 있음을 확인했다.

One questionnaire study of internal medicine residents found that only 8% of residents were ‘‘very satisfied’’ with the evaluation process (Isaacson et al. 1998). When an evaluation process is widely perceived to be unsatisfactory, however, its capacity to foster resident learning might legitimately be questioned. In a study describing the use of a 360  feedback instrument , Higgins et al. (2004) identified a high degree of defensiveness among residents in relation to the evaluation process, as well as a strong tendency among residents to dismiss feedback from non-physician sources.

그러나 전달받은 피드백에 대한 만족도만 가지고는 주어진 피드백의 품질 또는 효율성을 반영하지 못할 수 있어서 문제가됩니다. Boehler et al. (2006)은 외과 매듭 작업의 수행에서 칭찬만 하였을 때와 비교하여 건설적인 피드백의 효과를 결정하기위한 2, 3 학년 의과 대학생에 관한 연구를보고했다.

Satisfaction reports regarding received feedback are problematic, however, as they may not reflect the quality or effectiveness of the feedback given. Boehler et al. (2006) reported a study of secondand third-year medical students aimed at determining the effect of constructive feedback compared with praise alone in the performance of a surgical knottying task.

분명히, [연수생들이 들어서 기분이 좋은 것]과 [기술을 향상시키기 위해 그들이 들을 필요가 있는 것]은 분명 다를 수 있습니다. 그러므로 우리는 연수생에게 평가 과정의 높은 만족도만을 목표로 삼을 수는 없습니다. 기준을 더 높게 설정해야합니다.

Clearly, what trainees like to hear and what they need to hear in order to advance their skills may be quite different. We cannot therefore aim just for an evaluation process that is satisfactory to trainees: the bar must be set higher.

피드백과 평가 프로세스를 개발할 때 신중하게 고려해야 할 또 다른 쟁점은 이러한 프로세스의 공평성fairness입니다. 한 연구에서 영국 의학계 학생의 38 %만이 임상 로테이션 평가를 공정하다고 평가했으며, 평가자와의 접촉이 부족하다는 점이 이렇게 생각하는 가장 일반인 이유입니다. (Duffield and Spencer 2002)

Another issue that merits careful consideration when feedback and evaluation processes are developed is the perceived fairness of these processes. In one study, only 38% of UK medical students rated their clinical rotation assessment as being fair, with lack of contact with the evaluator the most commonly identified reason for this perception. (Duffield and Spencer 2002)

'절차적 정의'는 평가 도구의 전반적인 수용 가능성 측면에서 결과outcome보다 더 중요했습니다. 즉, 평가 결정에 도달하는 프로세스가 본질적으로 공정하다는 것이 안면타당도의 필수 요소이며, 평가 프로세스의 공정성에 대해 의심을 갖게 되면 프로세스의 효율성을 저해하는 부정적인 인식을 생성할 수 있다..

‘‘procedural justice’’ was more important than outcome in terms of overall acceptability of an assessment tool. That is, the intrinsic fairness of the process for arriving at evaluative decisions is an essential element of face validity, and doubts about the fairness of an appraisal process may create negative perceptions that compromise the effectiveness of that process.

시스템의 공정성에 대한 학습자의 태도뿐만 아니라, 평가자로부터 피드백을받을 때 존재하는 대인 관계에 대한 인식을 조사 할 필요가있다.

it is necessary to examine not only learners’ attitudes toward the fairness of the system , but also their perceptions of the interpersonal dynamic that exists when they receive feedback from an evaluator. 

레지던트는 [product의 가치를 극대화하기위한 노력]과 더불어, [ITE 프로세스에 대한 평가자와 레지던트의 헌신]을 모두 포함하는 것으로 engagement을 생각했습니다. Engagement에 대한 영향은 

  • 외부적 (적시, 신뢰할 수있는, 개인화 된 및 건설적인 프로세스의 인식)이면서

  • 내부적 (건설적인 피드백에 대한 수용성, 자체 평가에 대한 의존 정도)이었다. 

ITE에서 참여Engagement가 없었던 경우, 그에 따르는 피드백은 의미가 없는 것으로 인식되어 행동 변화를 유도하지 않을 수있었습니다 (Watling 외. 2008).

Residents conceived of engagement as encompassing both evaluator and resident commitment to the in-training evaluation process, with both making efforts to maximize the value of the product. Influences on engagement were both 

  • external (perceptions of the process as timely, credible, personalized, and constructive) and 

  • internal (receptivity to constructive feedback, extent of reliance on self-assessment). 

When engagement was absent from the in-training evaluation process, the resulting feedback was perceived as meaningless, and unlikely to motivate behaviour change (Watling et al. 2008).

Sargeant et al. (2008)은 피드백에 대한 감정적 반응은 피드백이 성과에 대한 자기지각self-perception에 동의하는지 여부와 관련이 있음을 발견했다. 피드백이 부정적이었다 하더라도, 그것이 self-perception에 부합하면, 피드백에 건설적으로 반응하여, 이를 수락하고 이에 따라 변화했다. 반대로 self-perception과 상충되는 부정적인 피드백을받는 사람들은 피드백의 수용과 사용을 어렵게 만드는 강렬하고 고통스럽고 오래가는 감정을 경험했습니다.

Sargeant et al. (2008) found that emotional reactions to feedback were related to whether or not feedback agreed with self-perception of performance. Those physicians whose feedback agreed with their self-perception, even when feedback was negative, responded constructively to feedback, accepting it and making changes accordingly. Those receiving negative feedback that was in conflict with their self-perception, in contrast, experienced strong, distressing, and longlasting emotions that made acceptance and use of feedback difficult.

그들의 피드백을 받아들이지 않은 사람들에게 있어서, 관심사항은 개별적인 수행능력보다는 평가 프로세스 자체의 공정성에 대한 우려였다. 피드백에 대한 성찰을 촉진함으로써, 수신자가 self 수준이 아닌 task 수준에서 이를 해석하도록 도와줄 수 있으며, 부정적인 피드백에 의해 유발되는 강렬한 감정을 처리하게 도와줄 수 있어서, 궁극적으로 피드백이 성과 향상을 도모하는 의도된 목표를 달성하는 데 중요하게 기여할 수 있다고 결론을 내렸다 (Sargeant 외. 2008).

Among those who did not accept their feedback, reflection often focused on concerns about the fairness of the assessment process itself rather than on their individual performance. The authors concluded that facilitated reflection on feedback to help recipients to interpret it at the task level rather than the self level and to process the often intense emotions triggered by negative feedback may be important in ensuring that feedback achieves its intended goal of fostering performance improvement (Sargeant et al. 2008).

따라서, 이상적으로 평가자는 연수생의 프로세스 인식에 대한 피드백을 전달해야 한다.

Ideally, then, evaluators would therefore deliver feedback with an awareness of trainees’ perceptions of the process

그러나 레지던트에게 평가를 제공하는 교수 중 38 %만이 해당 레지던트들에게 주어진 피드백 (Hasley and Arnold 2009)에 대해 응답하도록 요청했으며, 이는 평가가 개발되고 전달될 때 FR의 인식이 고려되지 않는 경우가 많음을 시사합니다.

however, that only 38% of faculty providing evaluations to residents asked those residents to respond to the feedback given (Hasley and Arnold 2009), suggesting that recipients’ perceptions are often not taken into account when evaluations are developed and delivered.

피드백은 일방향 도로가 아니다.

Feedback is not a one-way street

피드백은 학습자와 평가자 간의 상호 작용이다. 실제로 평가자의 인식은 연수생의 인식과 상당히 다를 수 있습니다. 임상 실적에 대한 피드백과 관련된 설문 조사에서 현저한 차이가있었습니다. 

  • 외과의의 90 %가 효과적인 피드백을 제공하는 데 종종 또는 항상 성공적이라고 느낀 반면, 같은 문항에 대해 레지던트의 16.7 %만이 동의했습니다. (Sender Liberman et al.2005). 

  • 피드백의 특성에 관해서는 86.2 %의 응답자가 사실fact 또는 활동 직후 피드백이 자주 또는 항상 주어졌지만 레지던트의 12.5 % 만 동의했으며 

  • 교수의 96.4 %는 개선을위한 제안을 자주 또는 항상 준다고 응답했지만, 레지던트의 13%만이 동의했다.

Feedback involves the interaction between a learner and an evaluator. Indeed, perceptions of evaluators may differ considerably from those of trainees.In a survey related to feedback on clinical performance, there was a marked difference ; while 90% of surgeons felt they were often or always successful in providing effective feedback, only 16.7% of residents agreed. (Sender Liberman et al.2005). Regarding specific characteristics of feedback, 86.2% of surgeons felt that feedback was often or always given immediately after the fact or activity while only 12.5% of residents agreed, and 96.4% of faculty felt they often or always gave concrete suggestions for improvement while only 13% of residents agreed. S

또 다른 연구에서, 외과 교수의 교수 능력에 대한 레지던트의 인식이 외과 교육자 자신의 자기 인식과 비교되었으며, 교수의 61 %가 레지던트가 매긴 점수와 스스로 매긴 점수가 크게 다름을 발견했다 ( Claridge et al., 2003).

In another study, residents’ perceptions of the teaching ability of their surgical faculty were compared with the self-perceptions of the surgical educators themselves, and a significant disconnect was found, with 61% of faculty scoring themselves significantly differently than residents had scored them (Claridge et al. 2003).

부정적 피드백을받는 것이 학습자에게 문제가 될 수있는 것처럼, 부정적인 피드백을주는 것은 교수에게도 쉽지 않은 것처럼 보입니다. 교사는 학생들이 부정적인 의견으로 인해 상처를 입을 수 있다거나, 그러한 피드백이 교사와 학생의 관계를 손상시킬 것이라거나, 낮은 성적이 학생들에게 악영향을 줄 것이라거나, 학생에 대한 remediation이 불가능할 것이라는 우려 때문에 학생들에게 피드백을 피할 수 있습니다.

Just as the receipt of negative feedback can be problematic for learners, the giving of negative feedback seems particularly troublesome for faculty. Teachers may avoid giving feedback to students due to concerns that students may be hurt by negative feedback, that such feedback might damage the teacher-student relationship, that low ratings would be demotivating to students, or that remediation would not be available.

Dudek et al. (2005)는 교수가 학생에게 F를 주는 것을 가로막는 여러 가지 장벽을 발견했습니다. 

  • 문서화 부족

  • 무엇을 문서화할지 지식 부족

  • 공식적인 어필을 받을 것을 우려

  • 알고있는 재교육 옵션의 부족

Dudek et al. (2005) found a number of barriers to faculty failing trainees, including 

lack of documentation, 

lack of knowledge of what to document, 

anticipation of a formal appeals process, and 

lack of perceived remediation options. 

그녀는 교수진이 ITE 프로세스를 효과적으로 사용할 수있는 능력이 부족한 것이 아니라, 오히려 그렇게 할 의지가 있다고 결론지었습니다

She concluded that faculty lack not the ability to use the ITE process effectively but rather the willingness to do

이러한 인식 된 장애물 중 상당수는 시간 제약, 연수생 직접 관찰 기회 부족, 연수 평가 접근법 불일치 및 교육 과제 간 교육 연속성 부족과 같은 외적 요인으로 나타났습니다. 

Many of these perceived barriers were  external, system factors: 

  • time constraints, 

  • limited opportunities for direct observation of trainees, 

  • inconsistency in approach to in-training evaluation, and 

  • lack of educational continuity between training assignments. 

그러나 교수진은 레지던트에게 부정적인 피드백을 주는 것이 대인 관계 측면에서 상당한 도전으로 인식했으며, 학습자에게 해harm를 끼치 지 않으면서 효과적으로 그렇게하기 위해 애썼다 (Watling 외. 2010).

Additionally, however, faculty identified the delivery of negative feedback to residents as a daunting interpersonal challenge, and struggled to do so effectively while avoiding harm to learners (Watling et al. 2010).

나아갈 길

The road ahead

학습자들은 건설적인 비판에 대한 그들의 욕망에도 불구하고, 비판, 수정, 부정적 피드백을 받는 것을 어렵게 생각합니다. 마찬가지로 교수진은 연수생이 자신의 약점을 정확하게 식별 할 수있는 평가가 필요하다는 생각을 받아들이고 있음에도 불구하고 부정적인 피드백을 주는 것을 어려워한다. 양측은 모두가 평가가 정직하고 정확해야한다는 신념을 갖고 있지만, 실제로 정직하고 정확한 평가는 연수생이 잘 할 때에나 쉽게 주어지고 받아 들여지는 것이 현실입니다.

Learners, despite their expressed desire for constructive criticism, identify as difficult receiving criticism, correction, or feedback perceived as negative. Similarly, faculty, despite seeming to accept the notion that trainees require evaluations that accurately identify their weaknesses, identify giving negative feedback as difficult. Both sides of the evaluation dyad express the belief that evaluations should be honest and accurate, but the reality is that honest, accurate evaluation is most readily given and received when the trainee is performing well.

Ende (1983)는 레지던트 훈련 중 부적절한 피드백을 주게 되는 것에 따르는 결과 중 하나는, 결국 외부 소스로부터의 평가를 배제하는 자기확인 시스템을 발달시키게 된다는 것이다.

Ende (1983), warned that one of the consequences of inadequate feedback during residency training is that residents develop a system of selfvalidation that eventually excludes evaluation from external sources.

자기 개선에는 타당하고 신뢰할 수있는 외부 출처로부터의 피드백이 필요할 뿐만 아니라, 그 피드백에 대해 고심하는 노력이 필요하다.

They contend that self-improvement demands not only feedback from valid and reliable external sources but also deliberate efforts to reflect on that feedback

학습자들에게 피드백을 받는 기술을 육성하는 것은 효과적이고 의미있는 평가 과정을 개발하는 데 필수 불가결 한 요소입니다 (Bing-You 외. 1998).

Nurturing in our learners the skill of receiving feedback is an indispensable element of developing effective and meaningful evaluation processes (Bing-You et al. 1998).

피드백은 필수 메시지의 이해를 촉진하는 방식으로 전달되고 수신되는 경우에만 건설적 일 수 있습니다.

Feedback can only be constructive if it is both delivered and received in a fashion that promotes the understanding of its essential message.

An essential goal of evaluation is to foster learning. Across the medical education spectrum, evaluation of clinical performance is dominated by subjective feedback to learners based on observation by expert supervisors. Research in non-medical settings has suggested that participants' perceptions of evaluation processes exert considerable influence over whether the feedback they receive actually facilitates learning, but similar research on perceptions of feedback in the medical setting has been limited. In this review, we examine the literature on recipient perceptions of feedback and how those perceptions influence the contribution that feedback makes to their learning. A focused exploration of relevant work on this subject in higher education and industrial psychology settings is followed by a detailed examination of available research on perceptions of evaluation processes in medical settings, encompassing both trainee and evaluator perspectives. We conclude that recipients' and evaluators' perceptions of an evaluation process profoundly affect the usefulness of the evaluation and the extent to which it achieves its goals. Attempts to improve evaluation processes cannot, therefore, be limited to assessment tool modification driven by reliability and validity concerns, but must also take account of the critical issue of feedback reception and the factors that influenceit. Given the unique context of clinical performance evaluation in medicine, a research agenda is required that seeks to more fully understand the complexity of the processes of giving, receiving, interpreting, and using feedback as a basis for real progress toward meaningfulevaluation.


UME에서 성찰 용도로의 포트폴리오 활용 조건(Med Educ, 2005)

Conditions for successful reflective use of portfolios in undergraduate medical education

Erik W Driessen,1 Jan van Tartwijk,2 Karlijn Overeem,1 Jan D Vermunt3 & Cees P M van der Vleuten1



포트폴리오는 진료 평가를위한 정보의 출처가 될뿐 아니라 학생들의 경험을 성찰하는 데 도움을주기 위해 의학교육에 널리 사용됩니다 .1 성찰은 학생들이 자신의 행동을 돌아보고 반복하는 자기조절의 순환적 과정이다. 그들을 분석하고, 대안을 생각하고, 실제로 이것을 시도하고, 다시 돌아본다 .2이 과정의 목적은 경험으로부터 배우는 것입니다. 따라서 성찰는 전문직업적 발달을 위한 조건이됩니다 .2

Portfolios are widely used in health care education, not only as a source of information for authentic assessment but also to help students reflect on their experiences.1 We regard reflection as a cyclic process of self-regulation in which students look back on their actions, analyse them, think up alternatives, try these out in practice, look back on them, etc.2 The objective of this process is to learn from experience. Reflection thus becomes a condition for professional development.2

연구 결과에 따르면 포트폴리오만으로는 성찰이 발생할 것이라는 보장이 없습니다.

Research has shown that a portfolio is no guarantee that reflection will occur. 

피어슨 (Pearson)과 헤이우드 (Heywood)는 GP에 의한 포트폴리오의 성찰적 사용을 조사했다.

Pearson and Heywood investigated the reflective use of a portfolio by general practice registrars.3

피어슨 (Pearson)과 헤이우드 (Heywood)는 다음을 성찰의 근거로 인정했다. 정보의 기록이 능동적인 회상과 결합되어야 하며, 능동적인 회상이란 정보에 대한 자기 성찰 또는 그 정보를 가지고 트레이너와 토론하는 것으로 구성되어야 한다. 3 대다수의 기록원과 그들의 트레이너들은 포트폴리오를 성찰에 사용하지 않았으며, 포트폴리오의 목적이 불분명하다고 말했습니다. 더욱이, 많은 trainer들은 포트폴리오를 사용할 동기가 없으므로, trainee에게 사용을 권장하지도 않았다. 이것은 포트폴리오를 성찰 목적으로 사용하지 않는 것과 관련이 있습니다. 마지막으로 형식이 엄격하게 규정되었을 경우 수용가능성을 더욱 악화 시켰습니다.

Pearson and Heywood considered as evidence of reflection  …recording information … combined with active recollection , consisting of  …either a memory of self-reflection on the information, or discussion of the information with the trainer .3 It appeared that the majority of the registrars and their trainers did not use the portfolio for reflection and that its purpose was unclear. Moreover, many trainers were not motivated to work with the portfolio and thus did notencourage its use. This correlated with poor use of the portfolio for reflection. Finally, the strictly prescribed format further hampered acceptability. 

교사 교육에 관한 연구에 따르면 포트폴리오는 특정 조건이 충족되는 경우에만 성찰을 자극한다는 것이 밝혀졌습니다. Wade와 Yarbrough는 포트폴리오를 유용하게 사용하기위한 다음과 같은 조건을 확인했습니다. 

  • 포트폴리오가 무엇이며 사용 의도가 무엇인지에 대한 인트로덕션

  • 학생의 오너십

  • 명확한 구조 

  • 코치 또는 강사와의 토론에서 포트폴리오의 적절한 사용.

Research in teacher education has revealed that portfolios only stimulate reflection if certain conditions are met. Wade and Yarbrough identified the following conditions for reflective portfolio use: 

  • a good introduction to the portfolio and its intended use, 

  • student ownership, 

  • a clear structure, and 

  • appropriate use of the portfolio in discussions with coaches or trainers.4

성찰은 많은 혁신적인 의학 커리큘럼의 중요한 특징인 실제 실행real practice의 맥락에서 학습을 위한 전제 조건입니다. 포트폴리오는 학습 환경이 호의적인 경우 성찰적 기술을 촉진할 수 있습니다.

Reflection is a prerequisite for learning in the context of real practice, which is a prominent feature of many innovative medical curricula. A portfolio can foster reflective skills, provided the learning environment is favourable.



연구 맥락

Context of the study

In the curriculum of Maastricht Medical School, the Netherlands, authentic learning is introduced in Year 1, during which the students’ learning environment consists of authentic and real cases. Although portfolios are predominantly used at more senior levels of training, it was decided that it would be appropriate to introduce a portfolio early in the curriculum to help students develop reflective ability. The portfolio consisted of 3 parts:

• [학생들의 개인적인 발전에 대한 4 가지 전문적 역할에 대한 자기 평가서 작성]과 [추가적 역할 개발 목적으로 자기 평가에서 파생 된 학습 목표]

• 자기 평가를 뒷받침하는 예시 자료

• 첫 번째 두 부분에 대한 학생들의 개인 멘토에 의한 (서면) 피드백.

• written self-assessments of students’ personal development in 4 professional roles and the learning goals students derive from these self-assessments to further their role development;

• illustrative materials underpinning the self-assessments, and

• (written) feedback by students’ personal mentors on the first 2 parts.

Every year students discuss their portfolios in at least 2 one-to-one meetings with their personal mentors. Mentors evaluate portfolio quality and address aspects that need improvement. Their written feedback is added to the portfolios.

Students’ reflective skills are assessed (pass or fail) annually by the Portfolio Committee

  • In the preclinical phase, reflective ability is assessed. 

  • In the clinical phase, portfolios contribute to the assessment of students’ clinical performance

All mentors sit on the Portfolio Committee, but mentors do not assess the portfolios of the students they are mentoring.



We interviewed all mentors (n ¼ 13) who were coaching Year 1 and 2 students during the period of the study.



Three topics were addressed in each interview:

• the mentor’s (implicit) definition of reflective skills;

• the portfolio’s effectiveness in stimulating students to reflect on their experiences and development, and

• conditions for successful reflective portfolio use.



The interviews were analysed according to the principles of grounded theory, using the program ATLAS ⁄ ti. After the first 5 interviews, 3 interviews were coded independently by 2 researchers (EWD and JvT). 

  • Coding comprised selecting citations and assigning labels to them. 

  • The outcomes were compared and any differences discussed until consensus was reached. 

  • The researchers then re-read the interviews to check that no relevant information had been overlooked. 

  • The resulting refined interview schema was used in the interviews with the remaining 8 mentors. 

  • The final step of the analysis was member checking, or determining whether interviewees agreed that data and conclusions accurately reflected interview content.7 

  • For this purpose, 2 of the interviewees read and commented on the results and conclusions of the study. This part of the analysis did not necessitate any changes.



성찰 기술의 정의

Definition of reflective skills

대부분의 멘토의 눈에는 성찰이 프로페셔널의 특성에 초점을 맞추어야 하며, 그 목적은 퍼포먼스의 강점과 약점을 파악하여 개선 방향을 제시하는 것이어야 한다. 멘토들에게 성찰이란 [왜 어떤 것이 그러한 상태인가]라는 질문에 대답하기 위해 원인을 확인하는 방법이었다. 이러한 "왜-"질문은 필수적이라고 여겨졌다. 한 멘토는 성찰이 없는 포트폴리오를 다음과 같이 묘사했다.

In the eyes of most mentors, reflection focuses on professional attributes and its purpose is to offer directions for improvement by identifying strengths and weaknesses in performance. The mentors saw reflection as a method of identifying causes in order to answer the question of why things are as they are. The  why-question  was regarded as essential. One mentor described a portfolio without reflection:

 ... whys와 wherefores을 묻지 않는 단순한 사실들의 모음. (멘토 1)

 ...as a collection of facts without questioning the whys and wherefores.  (Mentor 1)

멘토는 "왜-" 질문에 대해서 개인의 관점 바깥에서의 질문을 던지는 것이 학생들에게 중요하다고 말했다. 멘토는 다른 사람들의 의견에 대한 개방성을 객관성의 전제 조건으로 보았습니다.

Mentors attached great importance to students addressing why-questions from a position outside their personal perspectives. They saw openness to the opinions of others as a prerequisite for objectivity:

 자신의 태도와 행동을 객관화하고 모든 편견을 제거하여 자신의 입장을 명확하게 파악하고 다른 사람이 어떻게 보았는지 이해할 수있게하십시오. (멘토 2)

 That you can objectify your own attitude and behaviour and try to eliminate all bias so as to obtain a clear view of your position and understand how you are seen by others.  (Mentor 2)

포트폴리오를 [학생의 경험에 대한 성찰과 발달을 자극]하기 위한 목적으로 활용하는 효과성

Effectiveness of the portfolio in stimulating students to reflect on their experiences and development

모든 멘토들은 포트폴리오를 작성하고 반사 보고서를 작성하는 것이 학생들의 성과에 대한 비판적 태도를 육성하고 자신의 발전을 관리하는 데 도움이되었다고 말했습니다. 멘토들은 포트폴리오가 학생들의 경험을 소급하여 체계적으로 검토하도록 자극했을뿐만 아니라 개발 방향도 제시했다고 말했다. 이 과정은 학생들의 발달 속도에 영향을 미치는 것으로 나타났습니다.

All mentors said that compiling portfolios and writing reflective reports fostered a critical attitude in students towards their own performance and helped them manage their own development. The mentors said that the portfolio not only stimulated students to examine their experiences retrospectively and systematically, it also offered directions for development. This process was seen as affecting the pace of students’ development:

멘토들은 능력, 태도, 동기가 학생들이 얼마나 쉽게 반영했는지를 결정했다고 말했다.

The mentors said that ability, attitude and motivation determined how easily students learned to reflect:

자신의 성과를 비판적으로 평가할 능력이 부족한 학생들을 찾아야 할 필요성이 멘토에 의해 강조되었는데, 이는 의사의 중요한 기술로 간주되기 때문입니다. 학생들과 함께 포트폴리오를 토론하는 것은이 그룹을 식별하는 한 가지 방법입니다.

The need to identify those students who lack the ability to critically appraise their own performance was emphasised by the mentors, because this is considered to be a vital skill for medical doctors. Discussing portfolios with students is 1 way of identifying this group.

성공적인 포트폴리오 활용을 위한 조건

Conditions for successful reflective portfolio use

성공적인 성찰 포트폴리오를위한 네 가지 범주의 조건 : 

  • 륭한 코칭; 

  • 구조 및 지침; 

  • 성찰을 위한 적절한 경험과 자료;

  • 평가.

Four categories of conditions for successful reflective portfolio : good coaching; structure and guidelines; adequate experiences and material for reflection, and summative assessment.



코칭은 성찰에서 중요한 역할을합니다. 대부분의 학생들에게 성찰은 자연스럽게 일어나지 않기 때문에 코치 나 멘토는 학생들이 스스로의 퍼포먼스를 성찰던져야 할 질문을 학생들에게 제시하는 것이 중요합니다. 몇몇 멘토들은 이것이 많은 학생들에게 어렵다는 것을 깨닫지 못했다고 말했습니다.

Coaching plays a crucial role in reflection. As reflection does not come naturally to most students, it is an important task for coaches or mentors to show students what questions to ask themselves when reflecting on their performance. Several mentors said they had not realised this was difficult for many students.

 나는 학생들에게 자기 분석이 그렇게 어려운 것인지 몰랐다. '(멘토 12)

 I didn t know self-analysis was so difficult for students. ’ (Mentor 12)

코칭의 또 다른 중요한 기능은 학생들이 학습 요구를 파악하고 학습 계획을 수립하도록 도와주는 것이 었습니다. 멘토에 따르면, (학생들이 가지고 있던) 학습 계획은 [관련 학습 목표를 향한 심사숙고한 현실적인 단계]라기보다는 그저 [결심한 것들의 목록] 일뿐이었습니다.

Another important function of coaching involved helping students to identify learning needs and design learning plans. According to the mentors, these learning plans were often no more than a list of resolutions, rather than well thought out, realistic steps towards relevant learning goals.

성공적인 동기 부여 포트폴리오 사용에있어 학생 동기는 중요한 요소로 언급되었습니다. 멘토들은 학생들에게 성찰 포트폴리오 사용의 이점을 납득시키기 위해 상당한 시간이 필요할 때가 있다고 지적했습니다.

Student motivation was also mentioned as an important factor in successful reflective portfolio use. The mentors indicated they sometimes had to go to considerable lengths to convince students of the benefits of reflective portfolio use:

구조 및 가이드라인

Structure and guidelines

멘토에 따르면, 포트폴리오는 잘 구성되어야하며, 가이드라인은 학생들에게 기대되는 것과 성찰에 적합한 주제가 무엇인지 학생들에게 알려야합니다. 몇몇 멘토들은 또한 학생들이 성찰하는 법을 익히게 되면 구조적으로 더 개방적인open 포트폴리오 구조가 바람직하다고 지적했습니다. 약한weaker 학생들은 구조와 지침이 필요했지만 지나치게 구체적인 구조는 좋은 성찰 기술을 가진 학생들에게는 장애가 될 수 있습니다.

According to the mentors, a portfolio should be well structured and guidelines should tell students what is expected of them and what are suitable subjects for reflection. Several mentors also pointed out that a more open portfolio structure was preferable once students had learned how to reflect. Although weaker students needed structure and guidelines, too much structure may become an obstacle for students with good reflective skills.

경험과 재료

Experiences and material

효과적인 포트폴리오를 위한 또 다른 조건은 성찰을 위한 주제로서 다양하고 충분한 양의 흥미로운 경험이었다. 멘토들은 학생-멘토 모임이 (시간적으로) 너무 가깝게 계획된 경우 경험 부족이 문제가 있다고보고했습니다. 또한 학생들에게 성찰을 위한 주제subject가 없다면 이것은 다소 쓸모없는 exercisre가 됩니다 :

Another condition for an effective portfolio was sufficient variety and quantity of interesting experiences as subjects for reflection. The mentors reported that lack of experiences was problematic if student)mentor meetings were planned too closely together. If students have no subjects for reflection, it becomes a rather futile exercise:

그들이 스스로를 반복하고 있는 것처럼 보입니다. 즉 의무적이기 때문에 그저 해야 할 일을하고있는 것처럼 보입니다. (멘토 8)

It seems to me that they are actually repeating themselves, i.e. they are doing what they have to do just because it is obligatory.  (Mentor 8)

총괄 평가

Summative assessment

멘토들은 포트폴리오가 학생들과 멘토에 의해 진지하게 받아 들여지는 것을 보장하기 위해 성찰 기술에 대한 총괄 평가에 사용되어야 한다고 지적했다. 성찰 포트폴리오 사용은 학생과 멘토 모두에게 노동 집약적입니다. 평가가 없다면 포트폴리오가 덜 진지하게 받아들여지고, 학생들과 멘토는 필요한 시간과 에너지를 투자하는 것이 가치 있다고 생각하지 않는다는 생각하게 되었다.

The mentors indicated that the portfolio should be used for summative assessment of reflective skills to ensure that it is taken seriously by students and mentors. Reflective portfolio use is labour intensive for both students and mentors. There was agreement among the mentors that, without assessment, portfolios would be taken less seriously and students and mentors would not consider it worthwhile investing the necessary time and energy: 

포트폴리오를 평가할 때 학생들은 포트폴리오를 훨씬 더 심각하게 받아들인다고 생각합니다. (멘토 5)

I really think students take the portfolio much more seriously when the portfolio is assessed.  (Mentor 5)

    • 위에서 언급 한 조건이 충족되지 않으면,

    • 학생들이 성찰할 새롭고 관련있는 경험을 충분히 경험하지 못한 경우,

    • 학생들에게 너무 많은 규칙과 지침이 주어 지거나

    • 포트폴리오 내용이 멘토와의 진지한 토론의 대상이 아닌 경우.

멘토들은 일반적으로 학생들이 포트폴리오에서 정직하고 학생-멘토 회의에서 개방적이었다고 생각했습니다. 그들은 학생들을 멘토를 평가자로 보지 않는다고 생각했다.

if the above mentioned conditions are not met, 

if there are not enough new and relevant experiences for students to reflect on, 

if students are given too many rules and guidelines, or 

if portfolio content is not the subject of serious discussions with mentors. 

Mentors generally thought that students were  honest  in their portfolios and  open  in student-mentor meetings. They did not think students looked upon them as assessors:



인터뷰 참여자들은 포트폴리오 작성 및 토론이 학생들의 성찰 능력 개발을 향상시키는 데 동의했습니다. 단지 소수의 학생들만이 성찰 기술을 개발하지 못합니다.

The interviewees agreed that compiling and discussing portfolios enhanced the development of students’ reflective abilities. Only a small minority fails to develop reflective skills.

지지적 교사 (멘토링) 또는 동료 의견은 성찰 포트폴리오의 성공에 주요 요인으로 널리 인식됩니다. 3,4,8 Pearson과 Heywood는 성찰이 주로 supervisor에 의해 자극되었고, 포트폴리오는 (성찰을 위한 자극에) 아주 약간의 추가적인 도움만을 제공한다고까지 말하기도 했다.

A supportive teacher (mentoring) or peer feedback are widely recognised as key factors in the success of reflective portfolios.3,4,8 Pearson and Heywood even went so far as to say that reflection was primarily stimulated by supervisors and that a portfolio offered little added value as a stimulus for reflection.3

또한 이들은 그들이 연구 한 포트폴리오의 목적이 다소 불분명하다고보고했다. 트레이너는 열의가 없으며 포트폴리오 형식이 너무 rigid했다. 마찬가지로 Wade와 Yarbrough는 성찰 포트폴리오의 효율성에 중요한 요소로 '구조'를 언급했다. 우리의 연구에서 멘토들은 매우 구체적으로 짜여진 구조와 완전히 자유로운 구조 사이에서 조심스러운 균형을 주장했습니다. 

  • 구체적으로 짜여진 구조는, 구조가 부족할 때 좌절감을 유발할 수있는, 특히 학생들이 포트폴리오 작성을 처음 시작할 때 주로 도움이 될 것으로 생각되었습니다 .9 

  • 그러나 성찰 능력이 뛰어난 학생들에게는 개인적인 자질을 보여줄 수있는 여지를 제공해야합니다. Wade와 Yarbrough가 말했듯이, 학생들은 자신의 포트폴리오에 대한 소유권을 가져야합니다 .4

The same authors reported that the purpose of the portfolio they studied was rather unclear, trainers were poorly motivated and the portfolio format was too rigid.3 Similarly, Wade and Yarbrough identified structure as an important factor in the effectiveness of a reflective portfolio.4 In our study, mentors advocated a careful balance between a highly prescribed structure and full freedom. A well defined structure was thought to be mainly helpful at first, when lack of structure might cause frustration, especially when students are new to portfolio compiling.9 However, students with good reflective skills should be offered leeway to display their personal qualities. As Wade and Yarbrough put it, students should have ownership of their portfolios.4

멘토들은 또한 포트폴리오의 효과가 [학생이 성찰에 활용할 수 있는 의미있는 경험을 했는지]에 달려 있다고 지적했습니다. 이것은 조기 학부 의학 교육에 포트폴리오를 성공적으로 도입하는 데 결정적인 요소가 될 수 있습니다. 임상실습 기간에 비해서 의학과 1학년기간에 대부분의 학생들은 관련성이 높거나relevant 뚜렷한 경험이 없습니다. 도전적인 경험에 노출되지 않은 상태에서 성찰하도록 지시받은 학생들은 Snadden과 Thomas가 겪었던 현상인 "포트폴리오 피로portfolio tiered" 상태가 될 수 있습니다.

The mentors also pointed out that the effectiveness of the portfolio depended on students having different and meaningful experiences on which to reflect. This may well be a decisive factor in the successful introduction of a portfolio in early undergraduate medical education. In the first pre-clinical years, most students have fewer relevant and salient experiences than during clinical training. Students who are told to reflect without being exposed to challenging experiences can easily become  portfolio tired ,a phenomenon also encountered by Snadden and Thomas in the context of general practice training.8

우리 연구의 결과는 총괄 평가가 학생들과 멘토가 포트폴리오에 대해 지나치게 casual한 태도를 갖는 것을 막는다는 것을 보여줍니다. 효과적인 포트폴리오는 학생들과 멘토로부터 상당한 노력과 시간을 필요로합니다. 포트폴리오가 점수화되지 않은 경우, 학생과 멘토는 이러한 작업이 노력할만한 가치가 있는지 의문을 가질 수 있습니다. 문헌에서 우리는 이러한 현상에 기인 한 실망스러운 포트폴리오 경험의 사례를 발견했다. Snadden과 Thomas는 GP 연수생 포트폴리오가 일반적으로 평가되지 않는다는 결과를 보고했다 .8 GP들은 다른 총괄평가가 시간을 잡아먹게 된 즉시 포트폴리오 작업을 중단 한 것처럼 보였다. 

The results of our study show that summative assessment prevents students and mentors from adopting too casual an attitude towards the portfolio. Effective portfolios require substantial effort and time from students and mentors. If a portfolio is not graded, students and mentors may question whether the whole exercise is worth the effort. In the literature we found some examples of disappointing portfolio experiences that may be attributable to this phenomenon.8,10 Snadden and Thomas reported a study in which a portfolio of general practice trainees was not assessed summatively.8 Trainees appeared to stop working on their portfolios as soon as other, summative, assessments made demands on their time.

성찰은 학생들이 전문적인 성과를 향상시키는 데 도움이되는 사고 과정으로, '멘토'로 특징지어진다. 보편적인 견해는 성찰은 학생들의 미래의 의료 전문가로서 직접적으로 관련된 행동과 그 결과에 초점을 맞추어야한다는 것이었다. 교사 교육과 같은 다른 분야에서는 교사의 개인적인 정체성과 신념에 중점을 두는 경향이 있는데, 이는 이것들이 전문적 개발에 결정적인 역할을하기 때문입니다 .11

Reflection was characterised by the mentors as thought processes that help students improve their professional performance. The prevailing opinion was that reflection should focus on actions – and their consequences – which are directly related to students’ future work as medical professionals. In other fields, such as teacher education, more emphasis tends to be placed on student teachers’ individual identities and beliefs, because these are regarded as crucial to their professional development.11

The conditions for successful reflective use of portfolios that emerged from the interviews fell into 4 categories: coaching; portfolio structure and guidelines; relevant experiences and materials, and summative assessment. According to the mentors, working with a portfolio designed to meet these conditions will stimulate students' reflective abilities.


The conditions for successful reflective use of portfolios that emerged from the interviews fell into 4 categories: coaching; portfolio structure and guidelines; relevant experiences and materials, and summative assessment. According to the mentors, working with a portfolio designed to meet these conditions will stimulate students' reflective abilities.


This study shows that portfolios are a potentially valuable method of assessing and developing students' reflective skills in undergraduate medical training, provided certain conditions for effective portfolios are recognised and met. Portfolios have a strong potential for enhancing learning and assessment but they are very vulnerable and may easily lead to disappointment. Before implementing portfolios in education, one should first consider whether the necessary conditions can be fulfilled, including an appropriate portfolio structure, an appropriate assessment procedure, the provision of enough new experiences and materials, and sufficient teacher capacity for adequate coaching and assessment.

형성평가 (Understanding Medical Education Ch23)

Formative assessment

Diana F Wood

University of Cambridge School of Clinical Medicine, UK



지난 20 년 간 의학 교육에서 가장 분명한 발전 중 하나는 평가에 대한 더 깊은 이해와 그것이 학생의 학습과 교육 경험의 전반적인 질을 향상시키는 데 사용될 수있는 방법이었습니다. 가장 실용적인 수준에서는 평가가 커리큘럼을 주도한다는 인식을 반영합니다. (1) 학생들은 시험에 합격하고 평가의 가중치를 사용하여 강의 계획서의 여러 부분의 중요성을 평가하는 수단으로 학습합니다.

One of the most obvious developments in medical education over the past 20 years or so has been a greater understanding of assessment and the way it can be used to enhance both students’ learning and the overall quality of the educational experience. At its most pragmatic level, this reflects our recognition that ‘assessment drives the curriculum’.(1) Students learn what is needed to pass examinations and use weighting of assessments as a means to rank the importance of various parts of the syllabus.

또한 학생들은 특정 과목에서 잘 하기 위해 필요한 작업량을 판단하는 수단으로 동료와 비교하는 평가 시스템을 사용하고 평가하는 경향이 있습니다. (2)

Furthermore, students expect to be assessed and tend to use grading systems that compare them with their peers as a means of evaluating the amount of work required of them to perform well in the course.(2)

평가는 복잡한 구조이며 다양한 목적을 인식하면 개별 교육 프로그램이 여러 목표를 달성하는 데 도움이됩니다 (Box 23.1 참조). 전형적으로, 평가는 형성 적 (formative)과 합계 (summative)의 두 가지 범주로 나뉩니다. 본질적으로 형성 평가는 학습자에게 진행 상황에 대한 피드백을 제공하는 반면, 총괄 평가는 과정 또는 학습 프로그램의 끝에서 학습 목표 달성을 측정합니다.

Assessment is a complex construct, and recognition of its various purposes will help ensure that an individual educational programme achieves its multiple goals (see Box 23.1). Classically, assessment has been divided into two categories: formative and summative. In essence, formative assessment provides feedback to learners about their progress, whereas summative assessment measures the achievement of learning goals at the end of a course or programme of study.

일반적으로, fail의 경우를 제외하고는 종합 평가에서 학생들에게 피드백이 제공되는 경우는 드물다. 최근 GME에서 특히 형성 및 총괄 평가의 구분이 흐려지고 본질적으로 형성적인 작업장 기반 평가가 모여져서 총괄적 목적으로 사용됩니다.

In general, little feedback is provided to students from summative assessments except in the case of failure. In recent years, particularly in postgraduate medical education, the distinction between formative and summative assessment has become blurred, with essentially formative workplace-based assessments being collated and used for summative purposes.

평가는 세 가지 주요 기능을 수행하는 것으로 생각할 수 있습니다. 학습 평가, 학습 평가 및 품질 보증 평가. 

Assessment can be thought of as serving three main functions; 

  • assessment of learning, 

  • assessment for learning and 

  • assessment for quality assurance. 

잘 설계된 교육 프로그램에서는 지속적인 학습 결과를 학생 학습을 측정하고 기관의 품질 보증 절차에 사용하는 등 (위의 세 가지 기능 간) 상당한 중복이 있습니다.

in a well-designed educational programme, there is considerable overlap such that the results of ongoing, formative assessment can be used both to measure student learning and to inform institutional quality assurance procedures.

형성평가의 특징

Characteristics of formative assessment

형성 평가는 피드백을 제공하기 위해 특별히 고안된 평가를 말합니다. 그것은 다음과 같이 정의되었습니다.

Formative assessment refers to any assessment that is designed specifically to provide feedback. It has been defined as follows:

'. . . 교사 또는 학생이 참여한 교수학습 활동을 수정하기 위한 피드백으로 사용될 정보를 제공하는 모든 종류의 활동. "((3), p.8)

‘. . . encompassing all those activities undertaken by teachers, and/or by their students, which provide information to be used as feedback to modify the teaching and learning activities in which they are engaged.’((3), p.8)

형성평가 다섯 가지 특징

five features of formative assessment

• 학습 의도 및 성공 기준을 명확히하고 공유한다.

• 학생들이 이해했다는 증거를 이끌어 낼 효과적인 교실 토론 및 기타 학습 과제 설계

• 학습자를 진전시키는 피드백 제공

• 학생들을 서로의 교육 자원으로 활성화

• 학생들이 스스로의 학습의 주인이 되도록 활성화

•  clarifying and sharing learning intentions and criteria for success 

•  engineering  effective  classroom  discussions  and  other learning tasks that elicit evidence of student understanding 

•  providing feedback that moves learners forward 

•  activating  students  as  instructional  resources  for  one another 

•  activating  students  as  the  owners  of  their  own learning. 

이러한 특징을 반영하는 조형 평가의 몇 가지 특성이 Box 23.2에 나와 있습니다.

Some characteristics of formative assessment that reflect these features are shown in Box 23.2.

피드백은 효과적인 형성 평가의 핵심입니다. 일반적으로 형성 평가는 지속적이고 빈번하며 비공식적 인 환경에서 수행되어야합니다.

Feedback is central to effective formative assessment. In general, formative assessment should be ongoing, frequent, non-judgemental and carried out in informal settings.

또한, 안전한 환경에서 학습 장애를 파악하고 적절한 경우 재교육 지원을받을 수있는 기회를 제공합니다.

Furthermore, it offers them the opportunity to identify their learning difficulties in a safe environment and to take up remedial assistance if appropriate.

교사는 학생들의 요구에 대해 더 잘 이해하고 학습에서 스스로 통제 할 수 있도록 도와줌으로써 동기 부여를 얻습니다.

Teachers are motivated by better understanding of their students’ needs and by helping them become more self-regulated in their learning.

형성 평가는 학생들이 학습 활동을 스스로 조절할 수 있도록 도움으로써 평생 학습 기술 습득에 중요한 역할을 할 수 있습니다. 잘 설계된 일련의 형성 평가는 전반적인 평가 프로그램의 교육적 영향에 중대한 기여를 할 수 있는데, 이는 개별 평가 자체의 신뢰성과 타당성만큼이나 중요한 특성입니다. (5) 따라서 이상적인 상황에서 형성 평가는 학습자와 교사 간의 양방향 프로세스이며, 이를 통해 학생을 학습 활동의 중심에 배치합니다.

Formative assessment can play a major role in the acquisition of lifelong learning skills by helping students selfregulate their learning activities. A well-designed series of formative assessments can make a major contribution to the educational impact of an overall assessment programme, a characteristic that is as important as the reliability and validity of the individual assessments themselves.(5) Thus, in the ideal situation, formative assessment is a two-way process between learner and teacher, placing the student at the centre of the activity.

실제로 평가는 일반적으로 학생에게 피드백을 정보를 전달하는 수단으로 간주되며, 주로 교사의 영역으로 간주됩니다. 형성 평가 중에받은 피드백 정보가 학생들에 의해 처리되는 방법에 대해서는 거의 생각하지 않습니다.

In reality, assessment is usually seen as the province of teachers, many of whom regard feedback primarily as a means of transmitting information to students. Often, little thought is given to how feedback information received during formative assessment is processed by students.

교사의 역할에만 초점을 맞추는 평가 과정은 [학생들이 평생 학습에 필요한 자율 학습 기술을 습득하기 위해서는 선생으로무터 적절한 도움이 필요하다는 것]과, [피드백이 어떻게 학생들의 동기 및 신념과 상호작용하는가]를 간과하고 있습니다. 즉, 형성평가 과정은 교사와 학생 모두의 관점에서 과정을 고려할 필요가있다.

An assessment process that focuses solely on the teacher’s role overlooks the need to help students gain the skills of self-regulation necessary for lifelong learning and ignores the way in which feedback interacts with students’ motivation and beliefs. it is therefore necessary to consider the process from the point of view of both teacher and students.

교사 관점

Teacher perspectives

교사의 관점에서 다음 세 단계를 거쳐야합니다.

From the teacher’s perspective, the following three steps:

1 학생의 작업을 검토합니다.

2 사전 설정된 학습 목표와 과정의 특정 단계에서 예상되는 수준을 반영한 참조 프레임 워크와 비교하여 작업을 평가합니다.

3 업무에 대한 판단을 내리고 학생에게 구두 또는 서면 의견을 제공합니다.

  • 1 Review the student’s work.

  • 2 Evaluate the work against a reference framework that reflects the pre-set learning objectives and the level expected of students at a particular stage in the course.

  • 3 Make a judgement on the work and provide verbal or written feedback to the student on that judgement.

겉으로 보기에 단순한 이 단계들에는 오해의 소지가 있습니다. 피드백을 제공함에 있어서 개별 교사의 전문성과 기술 수준 및 경험 수준의 차이가 있다는 점을 위장하기 때문입니다. 이러한 '교사 요소'는 새들러 (Sadler)에 의해 검토되었으며 (6) 그는 유능한 교사들이 평가 과정에 가져 오는 여섯 가지 중요한 특성을 확인했다. 이러한 특성은 박스 23.3에 요약되어있다.

The apparent simplicity of these steps is misleading, mainly because it disguises the expertise of individual teachers and their differing levels of skill and experience, particularly in giving feedback. Such ‘teacher factors’ were reviewed by Sadler;(6) he identified six important characteristics that highly competent teachers bring to the assessment process. These characteristics are summarised in Box 23.3.

양질의 형성평가를 제공하는 교사의 특징

BOX 23.3 Characteristics of highly competent teachers that affect the quality of formative assessment

  • 지식 : 학생보다 주제에 대한 지식과 이해력이 높습니다.

  • 교육에 대한 태도 : 학생들과 공감 함, 교육 목표를 전달할 수있는 능력, 학생들의 향상을 도우려는 욕망, 자신의 판단의 integrity에 대한 관심

  • 평가 구성에 필요한 기술 : 다양한 평가 도구를 사용하여 학생들에게 다양한 기술 개발

  • 평가 기준 및 적절한 표준에 대한 지식 : 학습 성과 및 이전의 학생 성취 경험을 토대로 교과 과정 내의 특정 수준에서 학생의 성과에 대한 표준 및 적절한 기대치에 대한 인식

  • 평가 기술 : 평가자로서 경험을 통해 정 성적 판단을 내릴 수있는 능력

  • 피드백 제공의 전문성 : 강점과 약점 식별, 기준과 관련된 평가 의견, 대체 학습 방법에 대한 제안, 목표 달성을위한 다양한 방법의 예

  • Knowledge: Greater knowledge base and understanding of the subject matter than the students

  • Attitude to teaching: Empathy with students, ability to communicate educational goals, desire to help students improve, concern for the integrity of their own judgements

  • Skill in constructing assessments: Use of varied assessment tools to develop different skills in students

  • Knowledge of assessment criteria and appropriate standards: Awareness of standards and appropriate expectations of students’ performance at a certain level within the curriculum based on learning outcomes and previous experience of student achievement

  • Evaluative skills: Ability to make qualitative judgements informed by experience as assessors

  • Expertise in giving feedback: Identification of strengths and weaknesses, evaluative comments in relation to criteria, suggestions for alternative learning methods, examples of different ways to achieve the goals

분명히, 어떤 주어진 교수들에서, 전문 지식의 수준은 교사들마다 다를 것입니다. 형성 평가에서 개별 교사의 기술의 중요성은 특히 직원 개발 및 감정과 관련하여 제도적 교육 프로그램의 일부로 평가가 설계되어야한다는 요구 사항을 강화합니다.

Clearly, in any given faculty, the level of expertise will vary between teachers. The importance of the skills of individual teachers in formative assessment reinforces the requirement for assessment to be designed as part of an institutional educational programme, particularly in relation to staff development and appraisal.

학생의 관점

Student perspectives

'자기 조절'이라는 용어는 학생들이 [목표를 설정하고 달성하며, 자원을 관리하고 외부 피드백에 적응함]으로써 자신의 학습 행동을 모니터하는 방식을 설명하는 데 사용됩니다. 이를 통해 학생들은 자신의 내부 피드백을 생성하여 목표를 향한 자신의 진도를 평가하고 장애물이나 동기 부여의 변화에 맞춰 학습 과정을 조정할 수 있습니다. 스스로 조절하는 학습자는 자신의 지식, 신념 및 인지 기술을 알고 있으며, 외부의 피드백을 효과적으로 해석하기 위해 이를 사용합니다. (7)

The term ‘self-regulation’ is used to describe the way in which students monitor their learning behaviour by setting and achieving goals, managing resources and adapting to external feedback. In doing so, students generate their own internal feedback, helping them evaluate their progress towards goals and to adapt their learning processes in the face of obstacles or changes in motivation. Self-regulated learners are aware of their own knowledge, beliefs and cognitive skills, and they use these to interpret external feedback effectively.(7)

Nicol과 Macfarlane-Dick은 내부 피드백 메커니즘을 개발하고 내부 피드백과 외부 피드백 간의 관계를 모델링 할 때 학생들의 역할을 정교화하고 형성평가 및 자기조절학습과 관련된 문헌을 검토했습니다 (그림 23.1).

Nicol and Macfarlane-Dick reviewed the literature relating to formative assessment and self-regulated learning, elaborating the student’s role in developing internal feedback mechanisms and modelling the relationship between internal and external feedback (Figure 23.1).(8)

일반적인 교육 문헌에 묘사 된 형성 평가에 대한 학생 중심의 접근 방식은 학습에 대한 구성주의적 접근 방식과 일치합니다

This student-centred approach to formative assessment described in the general educational literature is consistent with the constructivist approach to learning



평가에 뒤따르는 피드백은 학생과 교사가 함께 협력하여 학생의 과목 이해를 향상시킬 수 있게 돕는다. 선생님은 학생들의 의견에 관심이 있다는 것을 보여주고, 적절한 경우 명확한 설명을하고, 필요한 경우 학생이 다른 방식으로 주제에 접근하도록 권장합니다. 비-판단적, 개방적으로 제공되는 의견은 학생이 자신의 어려움을 토론하고 필요한 경우 더 나은 학습 방법을 계획하는 데 자신감을 가질 수 있습니다.

Feedback following assessment encourages the student and teacher to work together to improve the student’s understanding of a subject. The teacher shows that they are interested in the student’s opinions, seeks clarification where appropriate and, where necessary, encourages the student to approach a topic in a different way. Feedback provided in a nonjudgemental and open fashion allows the student to feel more confident to discuss their difficulties and plan better approaches to learning where necessary.

초창기연구에서부터 피드백의 퀄리티를 핵심으로 지적해오긴 했지만, 수년 동안 그리고 모든 교육 분야에서 효과적인 피드백이 학생 성취와 양의 상관 관계가 있음이 인정되었습니다. 품질이 좋지 않은 피드백은 효과가 없거나 해가 될 수 있습니다. (3)

It has been recognised for many years and across all educational sectors that effective feedback is positively correlated with student achievement,(12) although it is also clear from early studies that the quality of feedback is vital. Poor-quality feedback may have no effect or may even be detrimental.(3)

효과적인 피드백

Effective feedback

피드백은 학습자가 현재의 지식 수준 또는 기술 수준과 원하는 목표 사이의 차이를 인식하는 방식으로 정의 할 수 있습니다. 목표를 달성하기위한 지침을 제공하지만, 피드백은 학생들이 격차를 줄이기위한 행동을 취할 때만 효과적이다. (13,14) 이는 교육 목표가 분명하게 기술되어야 한다는 것 뿐만 아니라, 학생들이 그것을 달성하기 위해 필요한 조치를 취할 수 있도록 empower되어야 함을 의미한다. 이것은 효과적인 피드백이 단순히 교수 자체의 기능이 아니라 교사와 학습자 간의 협력이라는 것을 의미합니다.

Feedback can be defined as a way in which learners become aware of the gap between their current level of knowledge or skill and the desired goal. It provides guidance towards reaching the goal, but effective feedback is achieved only when the student takes action to narrow the gap.(13,14) This implies not only that the educational goals are clearly described, but also that students are able and empowered to take the necessary action to achieve them. This in turn means that effective feedback is a collaboration between teachers and learners rather than just a function of teaching per se.

니콜 (Nicol)과 맥팔레인 딕 (Macfarlane-Dick)은 자기 규제의 발전을 촉진 할 수있는 좋은 피드백의 7 가지 원칙을 제안한다. (Box 23.4 참조) (8)

Nicol and Macfarlane-Dick propose seven principles of good feedback that can facilitate the development of self-regulation (see Box 23.4).(8)

피드백을 위한 교육

Education for feedback

코스 초기에 도입 된 형성 평가 및 피드백 프로그램은 학생들이 실패와 동기저하의 사이클의 시작을 예방하는 데 큰 도움이 될 수 있습니다. 잘 설계된 형성 평가 프로그램을 통해 학생들은 자신의 목표와 이를 달성 할 수있는 방법을 알 수 있습니다. 그러나, 과정 시작시 학생들에게 이 과정을 설명하는 것이 중요합니다. 개별 및 그룹 피드백은 학생들에게 어려울 수 있으며, 잘 못 다루어지면 학생들의 progress에 해가 될 수 있습니다. 학생들에게 형성 평가 및 피드백에 관해 교육하는 것은 과정에서 최대한의 이익을 얻는 데 필수적입니다. 이러한 설명을 제공하기 위해서는 그 자체에 대한 계획과 사고가 필요합니다. 코스 시작에 제공하는 한 번의 강의는 효과적이지 못할 것이다. 학습 과정을 조기 피드백 세션과 통합하고 학습 그룹 내에서 좋은 피드백을 모델링하는 것이 교육적으로 가치가있을 가능성이 높습니다. (16)

A programme of formative assessment and feedback introduced early in a course can go a long way towards preventing the onset of the cycle of failure and demotivation in these students. A well-designed formative assessment programme will ensure that students are aware of their goals and the ways in which these might be achieved. However, it is incumbent on the faculty to explain this process to the students at the beginning of the course. Individual and group feedback can be difficult for students and, if handled badly, can be detrimental to their progress. Educating students about formative assessment and feedback is essential to ensure maximum gain from the process. This in itself requires planning and thought – it is unlikely that a single lecture at the start of a course will be effective. Integrating the educational process with early feedback sessions and modelling good feedback within a learning group is more likely to be educationally valuable.(16)

두가지 잘 알려진 피드백 접근법이 있다.

two well-known approaches to feedback

경험학습 상황에서의 피드백

Feedback in experiential learning settings

일대일 또는 소그룹 설정에서 체험 학습은 일반적으로 상담 상황 시뮬레이션의 관찰 형태로 의사 소통 기술 교육 프로그램의 기초를 형성합니다.

Experiential learning in one-to-one or small group settings forms the basis of communication skills teaching programmes, usually in the form of observed simulated consultations.

상담 기술에 관해 가르치는 동안 피드백을 제공하기 위해 널리 사용되는 지침 중 하나가 Pendleton et al. 1984 년 (17) '펜들턴의 규칙'으로 알려지게되었다. 이 가이드 라인을 개발하기위한 자극은 주로 의학 교육에서의 피드백이 부정적이며 학생의 실수를 지적하면서 자신의 강점과 성공에주의를 기울이지 않는 관찰이었다.

One widely used set of guidelines for providing feedback during teaching about consultation skills was described by Pendleton et al. in 1984(17) and has become known as ‘Pendleton’s Rules’. The stimulus for developing these guidelines was primarily the observation that feedback in medical education is traditionally negative, pointing out students’ errors while failing to draw attention to their strengths and successes.

경험 학습에서는 학생들이 안전한 환경에 있다고 느끼는 것이 중요합니다.

In experiential learning it is clearly important that students should feel that they are in a safe environment.

Pendleton 's Rules는 안전한 학습 환경의 필요성을 강조하며, 학습자의 약점에 대해 논하기 전에 강점에 대해 토론하고, 비판하기보다는 권고 사항을 제시 할 필요성을 강조합니다. 또한 과정의 각 부분에서 학습자가 첫 번째 의견을 말합니다. 이 자기평가는 학생들이 성찰 기술을 개발할 수있을뿐만 아니라 교사가 이러한 기술을 평가하고 학생이 자기 성찰에 겪는 어려움을 해결하게 도와줍니다.

Pendleton’s Rules stress the need for safety in the learning environment by emphasising the need to discuss the learners’ strengths before commenting on their weaknesses, and to make recommendations rather than criticise. Furthermore, in each part of the process, the learner makes the first comments – this self-evaluation not only encourages them to develop skills of reflection but also enables the teacher to assess these skills and address any difficulties students may have in self-reflection.

시뮬레이션 된 상담 모델을 따르는 소그룹 학습 세션에 적용된 Pendleton 's Rules

Pendleton’s Rules applied to a small group learning session following a simulated consultation model

• 이슈가 되는 사실관계를 명확히합니다.

• 학습자에게 무엇이 잘되었는지, 왜 그 이유가 무엇인지에 대해 의견을 말하도록 요청하십시오.

• 무엇이 잘되었는지와 왜, 그리고 코멘트를 추가하는지에 관해 그룹에게 질문하게한다.

• 학습자가 잘 못한 점과 그것이 다르게 수행 될 수있는 방법에 대해 의견을 말하도록 요청하십시오

• 다르게 수행 될 수있는 일과 전체 그룹과 어떻게 관계가 있는지 토론하십시오.

• clarify any issues of fact

• ask the learner to comment on what went well and why

• ask the group to discuss what went well and why, and add comments

• ask the learner to comment on what went less well and how it could be done differently

• discuss what could be done differently and how with the whole group.

펜들턴 법칙은 학생의 관점에서 보면 안전한 환경에서 일관된 프레임 워크를 제공합니다.

From the student’s point of view, it provides a consistent framework in a safe environment

자기 평가에 중점을 두어 학생이 학습에 대해 더 잘 성찰하도록 도와줍니다.

The emphasis on self-assessment helps the student become more reflective about learning.

어떤 학생도 부정적 피드백만 받지 않으며, 어떤 불리한 의견이라도 변화를위한 권고로서 건설적인 방식으로 제시되어야 합니다. 전반적인 효과는 피드백 경험을 통해 자기 조절을 개발하게 돕고, 동기 부여를 강화해야한다는 것입니다.

no student receives only negative feedback, and any adverse comments must be presented in a constructive way as recommendations for change. The overall effect is that the feedback experience should enhance motivation to learn and encourage the development of self-regulation.

그러나 Pendleton 's Rules에는 여러 가지 단점이 있으며, 주로 피드백이 제공되는 방식에 대한 엄격한 순서을 이행하는 것과 관련이 있습니다. 각 학생이 과정 초반에 긍정적 인 피드백을 받도록함으로써 개별 학생 자신의 아젠다를 간과 할 수 있습니다

There are, however, a number of disadvantages to Pendleton’s Rules, mainly related to their enforcement of a strict order for the way in which feedback is given. By ensuring that each student receives positive feedback at the beginning of the process, the individual student’s own agenda may be overlooked

또한 Pendleton 's Rules이 개발될 당시 널리 퍼져있었던 부정적인 피드백의 문화는 사라지고 있습니다. 학생들은 자신의 성공에 대해 성찰할 기회를 감사히 여기지만, 동시에 성과 향상 방법에 대한 조언을 얻고 자합니다.

the culture of persistently negative feedback prevalent at the time of the development of Pendleton’s Rules is disappearing. Students appreciate the opportunity to reflect on their successes, but are anxious to receive advice on how they might improve their performance.

Silverman et al.이 기술 한 상담의 주도적 인 결과 기반 분석 (ALOBA) 1996 년 (18)은 소그룹 및 일대일 체험 학습 상황에서 피드백을 제공하기위한 대체 메커니즘을 제공한다. ALOBA 접근법은 학생들 자신의 아젠다를 중심으로 구성되어있어 자신의 문제와 환자의 상담 결과에 대한 개별적인 문제를 식별 할 수 있습니다.

The agenda-led outcome-based analysis (ALOBA) of the consultation, described by Silverman et al. in 1996,(18) provides an alternative mechanism for giving feedback in small group and one-to-one experiential learning situations. The ALOBA approach is built around the students’ own agenda, allowing them to identify their individual problems in the context of their own and the patient’s desired outcomes for a consultation.

ALOBA 방법의 원칙은 상자 23.5에 나와있다.

The principles of the ALOBA method are shown in Box 23.5.

피드백을 제공하는 ALOBA 방법의 장점은, 역설적으로, 개별 학습자와 각자의 의제를 각 학습 경험의 중심에 놓았을 때 이 세션이 모든 학생에게 더 많은 가치를 지닌다는 것이다. 학생들이 상담에 내재 된 문제를 고려하고 문제 해결에 참여할 수있는 기회를 제공함으로써 모든 참가자가 학습 과정에 더욱 참여하게됩니다. Pendleton 's Rules는 학습자가 다른 모든 참가자로부터 수동적으로 피드백을받는 결과를 가져올 수 있지만 ALOBA 기술은 모든 사람이 동등하게 과정에 참여하도록 보장합니다. 교사의 관점에서 ALOBA 방법은 학생들이 자신의 학습을 이해할 수있는 이론적 구조를 제공하면서 훌륭한 의사 소통 기술의 기초가되는 몇 가지 개념을 소개 할 수있는 기회를 제공합니다. 그러나 ALOBA 방법은 경험이 풍부한 교사를 필요로하며 덜 숙련 된 사람에게는 힘든 일입니다.

The advantages of the ALOBA method for providing feedback are, paradoxically, that having placed the individual student and their own agenda at the centre of each learning experience, the session becomes of more value to all the students involved. By offering the opportunity for students to consider the problems inherent in a consultation and engage in problem-solving, all participants are more involved in the learning process. Whereas Pendleton’s Rules may result in the learner becoming the passive recipient of feedback from all the other participants, the ALOBA technique ensures that everyone is equally engaged in the process. From the teacher’s point of view, the ALOBA method also provides an opportunity to introduce some of the concepts underlying good communication skills, providing a theoretical structure for the students to understand their learning. However, the ALOBA method does require more experienced teachers and may be daunting for the less skilful.

Task for the teacher 

피드백 구성

학습자의 의제 식별

학습자와 환자가 달성하려는 결과에 대해 토론하십시오.

학습자가 먼저 댓글을 달 수 있도록 허용

전체 그룹을 문제 해결에 참여시킵니다.

그룹 피드백

그룹의 모든 구성원으로부터 의견을 보내주십시오.

균형 잡힌 피드백 보장, 규범적 설명보다는 대안 제안

지지적인 자세, 역할 모델로 행동하십시오.

피드백이 더 큰 이해로 연결되도록하십시오.

리허설 제안

상담 자료를 학습 자료로 사용하십시오.

더 넓은 범위로 토론을 개발하십시오

구조, 요약 및 기록

Organise the feedback 

Identify the learner’s agenda 

Discuss the outcomes that both learner and patient were trying to achieve 

Allow the learner to comment first 

Involve the whole group in problem-solving

Group feedback 

Invite feedback from all members of the group 

Ensure balanced feedback Suggest alternatives rather than make prescriptive comments 

Be supportive, act as a role model

Ensure that feedback leads to greater understanding

Rehearse suggestions 

Use the consultation as learning material 

Develop a wider discussion 

Structure, summarise and record

좋은 피드백, 나쁜 피드백

Helpful and unhelpful feedback

경험적 학습 상황에 대한 건설적인 피드백의 원리는 다른 곳에서 기술되었으며 (23-25) Box 23.6에 요약되어있다.

The principles of constructive feedback for experiential learning situations have been described elsewhere(23–25) and are summarised in Box 23.6.

학생들의 반응을 분류하기위한 많은 시스템들이 기술되어 있으며, 가장 잘 알려진 것은 SOLO 분류법의 구조이다 (Box 23.7 참조).

A number of systems for classifying students’ responses have been described, of which the most well known is the structure of the observed learning outcome (SOLO) taxonomy(26) (see Box 23.7).

이 스킴에 설명 된 수준은 내용에 특정한 것이 아니며 교사가 모듈의 목표와 기대되는 달성 수준을 알고 있다고 가정 할 때 교과 과정의 모든 단계에서 학생들의 작업에 적용될 수 있습니다. 레벨 4와 5에 도달한 학생 작품은 지식을 범주화하고 구조화하는 증거, 심층 학습과 관련된 특성을 보여줍니다. 이 (또는 유사한) 프레임 워크 내에서 학생들에게 제공되는 피드백은 단순한 판단적 진술보다는 학습에 도움이됩니다.

The levels described in this scheme are not content specific and can be applied to students’ work at any stage in a curriculum, assuming the teacher is aware of the aims of the module and the level of attainment expected. Student work that scores in levels 4 and 5 shows evidence of categorising and structuring knowledge, characteristics associated with deep learning. Feedback offered to the students within this (or a similar) framework is more helpful to their learning than simple judgemental statements.

마지막으로 학생들에게 피드백을 이해했는지, 피드백에 대한 해석이 정확한지 확인하는 것이 유용합니다. 학생들이받은 피드백에 대한 인식은 피드백을 준 교사의 관점과 크게 다를 수 있습니다 (27)

Finally, it is useful to check with the students that they have understood the feedback they have been given and that their interpretation of the feedback is correct. The students’ perception of the feedback they have received may vary greatly from that of the teacher who gave the feedback(27)

커리큘럼에서 형성평가

Formative assessment in the curriculum

형성평가는 총괄 평가와 함께 교육 기관의 평가 전략의 일부로 고려되어야합니다.

Formative assessment should be considered as part of a teaching institution’s assessment strategy alongside summative assessments.

형성평가와 모듈 설계

Formative assessment and module design

Figure 23.2.

교과 과정의 이러한 '건설적인 연계'는 평가가 교과 과정 설계 및 검토 과정에서 내적으로 일관된 평가 (형식적 및 총괄적)가 포함되도록 학습 성과와 명시적으로 연결하여 학습이 촉진되도록 보장합니다. (29,30)

This ‘constructive alignment’ of the curriculum ensures that assessments facilitate learning by being linked explicitly to the learning outcomes such that internally coherent assessments (both formative and summative) are embedded in curriculum design and review.(29,30)

학부교육에서 형성평가 사례

Examples of formative assessment in undergraduate medical education

The principles of good formative assessment can be applied to all areas of assessment in medical education, including:

병원 외래

Hospital clinical placements

One of the most well-recognised and disheartening aspects of traditional medical education programmes was the  ability  of  students  to  pass  through  a  clinical  teaching programme  and  only  be  identified  as  having  problems when  they  failed  a  summative  assessment  or  even  theirfinal  examinations  (often  not  to  the  surprise  of  teaching staff).  Formative  assessment  can  identify  struggling  students earlier in the course

Most medical schools expect students on clinical placements to receive feedback on their performance, usually in the form of a grade, which is regarded as highly subjective by the students. Furthermore, learners report a lack of regular feedback or describe feedback that they perceive to be poorly given or unfair, and they may become defensive, especially to feedback given by non-medical clinicians such as nurses or paramedical staff.(32)

너무 많은 바쁜 임상가에게 형성적인 평가와 피드백을 요구하는 것은 비생산적 일 수 있습니다. 형성적 또는 총괄적 방법으로 사용가능한 중앙 집중식 평가 형식을 구성하고, 성과 평가에서 절대적으로 중요한 경우에만 직장 기반 평가를 요청하는 것이 더 나을 수 있습니다.

Asking too much of busy clinicians by way of formative assessment and feedback may be counterproductive. It may prove to be more valuable to organise centralised assessment formats assessing competence, which can be used in either formative or summative ways, and to ask for workplace-based assessment only where it is absolutely vital in the assessment of performance.

일반 진료에서 상담 기술

Consultation skills in general practice

일반 진료는 종종 적절한 피드백과 함께 형성 평가를위한 특히 좋은 환경을 제공합니다. 일반적으로 학생들은 소수의 실습에 첨부되며 환자 자신이나 관찰 된 상담에서 환자를 볼 기회를 가질 수 있습니다.

General practice placements often provide particularly good environments for formative assessment with appropriate feedback. In general, students are attached to a practice in small numbers and may be given the opportunity to see patients on their own or in observed consultations.



포트폴리오는 학생 progress 회의에서 토론의 중심이 될 수 있으므로 형성 평가에 활용할 수 있습니다.  적절한 기준에 따라 표시되고 전반적인 조형 평가 프로그램의 일환으로 효과적인 피드백이 제공된다면 포트폴리오에 다양한 평가를 포함시키는 것이 유용할 수 있다.

Portfolios lend themselves to use in formative assessment as they can be the centre of discussion at student progress meetings. Inclusion of a variety of assessments within a portfolio is helpful if they have been marked according to appropriate criteria and with effective feedback given as part of the overall formative assessment programme.


Formative assessment

First published: 1 November 2013


This chapter predominantly relates to the use of formative assessment in undergraduate medical education. The principles described are derived from a variety of sources, including the general educational literature, and can be extrapolated to all levels of medical education. In many cases, the formative assessment methods described here can be directly transferred to the postgraduate arena with correction only for the level of the learners in relation to the educational goals. The following areas will be considered: definitions of formative and summative assessment; teacher and learner perspectives on formative assessment and some of the research evidence underpinning them; the role of feedback in formative assessment, including examples from experiential learning settings in communication skills teaching; how formative assessment may be used within a curriculum; and examples of formative assessment in different teaching and learning environments. In medical education, formative assessment is a valuable part of the assessment programme.

개인적, 전문직업적 성장을 위한 포트폴리오(Understanding Medical Education Ch14

Portfolios in personal and professional development

Erik Driessen1 and Jan van Tartwijk2

1 Maastricht University, The Netherlands

2 Utrecht University, The Netherlands



포트폴리오의 내용은 처방되거나 개별 학습자의 재량에 맡겨 질 수 있으며, 포트폴리오는 수행 된 업무, 받은 피드백, 진행된 진전, 역량 향상을위한 계획, 성과 및 개발에 대한 성찰을 보고 할 수 있습니다. (4,5)

Content may be prescribed or left to the discretion of individual learners, and the portfolio can report on work done, feedback received, progress made, plans for improving competence, and reflections on performance and development.(4,5)

의학 교육 포트폴리오에 대한 근거 자료는 Box 14.1에 요약되어있다. (5,7,8)

The evidence base for portfolios in medical education is summarised in Box 14.1.(5,7,8)

포트폴리오의 다양성

Diversity of portfolios

범위 Scope

포트폴리오는 크게 다를 수 있습니다. (9) 

    • 하나의 기술, 역량 도메인 또는 커리큘럼 구성 요소에 초점을 둔 매우 제한된 것 (예 : 프레젠테이션 기술 포트폴리오에만 해당)과 

    • 장기간에 걸쳐 모든 관련 역량 영역을 다룬 매우 광범위하고 다양한 학습자의 개발에 대한 것

Portfolios can differ substantially in scope.(9) They may vary from 

    • being very limited (such as a portfolio for presentation skills only) focused on one single skill, competency domain, or curricular component, to 

    • being very broad, covering the learner’s development across all relevant competency domains over a prolonged period of time.

개방 또는 폐쇄 Open or closed

상세한 가이드 라인과 엄격한 규제가 적용된 '닫힌'포트폴리오는 학습자가 자신의 포트폴리오의 형식과 내용을 결정할 수있는 자유가 거의 없습니다. 닫힌 포트폴리오는 비교 및 ​​탐색이 쉽기 때문에 대규모 포트폴리오 평가의 이점입니다. 단점은 포트폴리오가 개별 학습자와 특정 직장의 특성에 대한 진정한 정의를 할 수 없다는 것입니다.

A ‘closed’ portfolio with detailed guidelines and strict regulations allows learners relatively little freedom to determine the format and content of their own portfolios. Closed portfolios are easy to compare and navigate, which is an advantage for large-scale portfolio assessment. The downside is that the portfolio cannot really do justice to the characteristics of individual learners and specific workplaces.

방향이 다소 느슨하고 일반적 일 때 더 많은 '개방형'포트폴리오는 학습자에게 포트폴리오 내용 및 형식과 관련하여 상당한 자유를 준다. 결과적으로 학습자는 자신의 학습 과정에 대해보다 풍부한 설명을 제공하고 그들이 근무한 작업장의 구체적인 특성에 주의를 기울일 수 있습니다.

A more ‘open’ portfolio results when directions are rather  loose  and  general,  allowing  learners  considerable freedom with respect to portfolio content and format. As a consequence,  learners  can  provide  richer  descriptions  of their  individual  learning  processes  and  pay  attention  to specific  characteristics  of  the  workplaces  in  which  they have worked.

목표와 그에 따른 포트폴리오 디자인 Goals and their relation to portfolio design

의학 교육에서 포트폴리오는 세 가지 주요 목표 인 평가, 성찰 및 학습자 개발을 담당합니다. 그림 14.1 (2)

In medical education, portfolios serve three main goals: 

  • assessment, 

  • reflection 

  • learner development. Figure 14.1.(2)

  • 평가에 사용되는 포트폴리오에서는 역량 달성의 증거가 중심이됩니다. 

  • 성찰을 목적으로하는 포트폴리오에서 핵심은 성과 개선을 이끌기 위한 서면 평가와 성과 분석으로 구성됩니다. 

  • 개발을 모니터하고 계획하는 데 사용되는 포트폴리오에서 주요 기능은 업적과 목표의 개요입니다. 

그러나 실제로는 대부분의 포트폴리오는 이러한 목표의 전부 또는 일부를 결합하며, 목표 혼합은 포트폴리오의 모양을 결정합니다 (상자 14.2 참조).

  • In portfolios used for assessment, the evidence of competency attainment takes centre stage. 

  • In portfolios primarily aimed at stimulating reflection, the core of the portfolio consists of written evaluations and performance analyses to direct performance improvement. 

  • In portfolios that are used to monitor and plan development, the main features are overviews of achievements and targets. 

In practice, most portfolios combine all or some of these goals, and the goal mix determines what the portfolio looks like (see Box 14.2).

발달 모니터링과 계획을 위한 포트폴리오

Portfolios for monitoring and planning development

    • 직장에서의 학습은 학습 기회의 가용성에 달려 있으며, 이는 학습자에 따라 필연적으로 다양합니다. (11) 

    • 이와 동시에 학부 과정 교육에서는 학생들이 1주나 2주 이상 동일한 감독자를 갖는 경우가 드물다 (12) 

    • 임상 작업장은 본질적으로 학생들이 자신의 학습을 지시하는 것이 어려운 erratic한 환경이다. 

    • 임상 실습에 몰입하는 동안 학생들은 자신의 경험이 커리큘럼에서 요구하는 전반적인 학습 목표 및 역량 달성에 어떻게 기여할 수 있는지 정확히 인식하기가 어렵습니다. 

    • 더욱이 감독의 연속성 부족과 학생 활동의 제한된 관찰은 학습자 개발을 효과적으로 모니터링하는 방법에 서있다.

    • learning in the workplace depends on the availability of learning opportunities, and this inevitably varies from learner to learner.(11) 

    • On top of this, it is rare in undergraduate education (perhaps less so in postgraduate training) for students to have the same supervisor for more than one or two weeks.(12) 

    • The clinical workplace is thus by nature an erratic environment in which it is difficult for students to direct their own learning. 

    • While being immersed in clinical practice, students have a hard time perceiving exactly how their experiences can contribute to the overarching learning objectives and competency achievements required by the curriculum. 

    • Moreover, lack of continuity of supervision and limited observation of student activities stand in the way of effective monitoring of learner development.

학습 목표 설정 Setting learning goals

그러한 포트폴리오가 효과적이기 위해서는 잘 정의 된 학습 목표가 특정 기간 동안 설정되는 것이 중요합니다. 목적을 가진 활동은 직장 기반 학습의 기둥 중 하나이다. (16)

For such a portfolio to be effective, it is essential that welldefined learning goals are set for a specific period. Purposeful activities are one of the pillars of workplace-based learning.(16)

효과적인 학습 목표를 위해서는, 학습자와 교사가 목표를 달성하기 위해 노력하는 것이 중요합니다. 교사는 목표가 구체적이고 목표를 달성하기 위해 실현 가능한 계획이 수립되어 있음을 확인해야합니다. 이에 대한 유용한 지원은 SMART 모델이다. 목표는 구체적이고, 측정 가능하며, 수용 가능하고, 현실적이고 시간에 맞추어야한다.이 기준이 충족 될 경우에만 목표를 실제로 달성 할 수있는 실질적인 기회가된다.

For learning goals to be effective, it is important that both learner and teacher are committed to achieving them. The teacher should see to it that objectives are concrete and that a feasible plan is drawn up to achieve them. A useful aid for this is the SMART model: objectives should be Specific, Measurable, Acceptable, Realistic and Time-bound, for only if these criteria are met is there a real chance that objectives will actually be achieved.(18)

포트폴리오 구조와 내용 Portfolio structure and content

개발을 촉진하고 모니터링하기위한 수단으로 사용되는 포트폴리오에서, 무엇이 마스터되었는지와 무엇이 달성되어야하는지에 대한 개요가 중요합니다.

In portfolios that are used as instruments to promote and monitor development, overviews of what has been mastered and what remains to be achieved are important.

Such overviews could contain the following information:

• 프로시져 또는 환자 케이스 Procedures or patient cases 

Which procedures? 

What was the level of supervision? 

Which types of patients? 

What was learned? 

Were the activities assessed? Plans?

• 과거 업무 경험 Prior work experience 



Which tasks? 

Strengths and weaknesses? 

Which competencies or skills were developed? 

Evaluation by the learner?

• 과거 교육 및 훈련 Prior education and training 

Which courses or programmes? 



What was learned? 

Completed successfully? 

Evaluation by the learner?

• 프로그램 내외부의 경험 Experiences within and outside the course/programme 



Which tasks? 

What was done? 

Strengths and weaknesses? 

Which competencies or skills were developed? 

Evaluation by the learner? 


• 프로그램의 구성요소 Components of the course/programme 

Which components have been attended so far? 

Which remain to be attended? 


What was learned? 

Completed successfully? 

Evaluation by the learner? Plans?

• 역량 또는 스킬 Competencies or skills 

Where addressed? 

Level of proficiency? 



평가를 위한 포트폴리오

Portfolios for assessment

전통적인 정신 측정 방법은 많은 포트폴리오의 본질적으로 표준화되지 않은 특성과 양립 할 수없는 것으로 판명되었습니다

The traditional psychometric approach, has been found to be incompatible with the essentially non-standardised nature of many portfolios

심리 측정 적 정량적 접근법은 수치 적 정보 (점수) 이외에 다양한 질적 정보를 담고있는 포트폴리오에 적합하지 않다. (6,21)

The psychometric quantitative approach does not quite fit with portfolios containing a variety of qualitative information, in addition to numerical information (scores).(6,21)

이러한 종류의 평가 업무는 표준화 된 체크리스트와 엄격하게 정의 된 기준의 목록이있는 분석 절차로 변환 될 수 없습니다. (23) 결과적으로 다양한 질적 정보의 존재로 인해 필연적으로 역량을 평가하기위한 포트폴리오의 정보를 평가하는 평가자 그들의 개인적인 판단에 의존해야한다. (20,24,25)

This kind of assessment task cannot be translated into an analytical procedure with a standardised checklist and a list of strictly defined criteria.(23) Consequently, due to the presence of diverse qualitative information, assessors in weighing the information in a portfolio to assess competency inevitably have to rely on their personal judgement.(20,24,25)

포트폴리오 평가와 포트폴리오 특성을 일치시키기 위해 질적 연구의 방법론에 크게 의존하는 접근 방식을 권장합니다. (19,20)

To achieve a match between portfolio assessment and portfolio characteristics, we advocate an approach that leans heavily on the methodology of qualitative research.(19,20)

포트폴리오평가 전략

Strategies in portfolio assessment

피드백 사이클을 잡는다

Arrange for feedback cycles

최종 판단이 도착했을 때 학습자가 놀랄 일이 없도록 정기적 인 피드백 사이클을 실시하십시오. 포트폴리오 내용은 보통 더 오랜 기간 동안 수집되므로, 포트폴리오의 퀄리티를 종료시가 다 되어서야 알려주는 것은 바람직하지 않습니다. 멘토로부터의 피드백과 같은 중간 형성 평가는 학습자가 포트폴리오를 변경하고 적응할 수있게하는 데 유용합니다. 포트폴리오 개발의 여러 단계에서 정기적 인 피드백은 평가 측면뿐만 아니라 학습 측면에서도 권장됩니다. (13,26)

Conduct periodical feedback cycles to ensure that learners are not taken by surprise when the final judgement arrives. Since portfolio contents are usually compiled over a longer period of time, it is ill advised to wait until the end of the period to make pronouncements about the quality of the portfolio. Intermediate formative assessments, such as feedback from a mentor,1 are useful to allow learners to adapt and improve their portfolio. Regular feedback at different stages of portfolio development is advisable not only from an assessment perspective but from a learning perspective as well.(13,26)

다수의 정보제공자를 포함시킨다

Involve multiple informants

해당 기간이 끝나면 완성 된 포트폴리오를 판단하는 평가자 외에도 포트폴리오 프로세스에 어떤 식 으로든 참여하는 다양한 사람들이 평가에 중요한 기여를 할 수 있습니다. 

        • 멘토는 일반적으로 포트폴리오의 품질에 대한 첫 번째 언급입니다. (27) 그 또는 그녀는 종종 학습자를 가장 잘 알고, 자료의 진위 여부를 확인하는 위치에 있으며 학습자의 작업 습관을 잘 알고 있습니다. ) 

        • 동료는 평가에 기여할 수있는 또 다른 그룹입니다. 동료 평가의 장점은 두 가지입니다. 동료는 경험상 포트폴리오를 만드는 것이 무엇을 의미하는지 알고 동료 평가를 통해 포트폴리오의 평가 기준을 숙지 할 수 있습니다. 

        • 마지막으로, 학습자는 또한 포트폴리오의 품질을 스스로 평가할 수 있습니다. 예를 들어 스승의 의견에 응답하거나 역량을 자체 평가할 수 있습니다.

In addition to the assessors who judge the completed portfolio at the end of the period, different people who are in some way involved in the portfolio process can also make a valuable contribution to the assessment. 

        • The mentor is usually the first to comment on the quality of the portfolio.(27) He or she often knows the learner best, is in a position to ascertain the authenticity of the materials, and is familiar with the learner’s work habits.(28) 

        • Peers are another group that can contribute to the assessment. The advantages of peer assessment are two-fold: peers know from experience what it means to produce a portfolio and by engaging in peer assessment they can familiarise themselves with the portfolio’s assessment standards. 

        • Finally, learners can also self-assess the quality of their portfolios – for instance, by responding to the mentor’s comments and/or by self-assessing their competencies.

학습자의 자기 포트폴리오에 대한 자기 평가는 올바른 자기 평가에 도달하기 위해 멘토 판단에 의해 뒷받침 될 수있다. (31)

learners’ self-assessments of their portfolios could be supported by mentor judgements to arrive at valid self-assessments.(31)

평가자 훈련

Train assessors

평가자가 자신의 판단을 조정하고 평가 절차와 그 결과를 토의 할 수있는 회의 (포트폴리오 기간 중 마지막 단계 이전과 중간 단계)를 조직하십시오.

Organise a meeting (before the final assessment round and at an intermediate stage during the portfolio period) in which assessors can calibrate their judgements and discuss the assessment procedure and its results.

평가자 간의 차이점은 평가 프로세스에 대한 논의에 참여시킴으로써 줄일 수있다. (33) 예를 들어, 평가자의 평가 기준에 대한 해석이 수렴 될 수 있고 따라야 할 절차에 대한 공동 이해가 이루어질 수있다 . 이러한 논의는 평가 라운드 직전뿐만 아니라 평가자가 자신의 포트폴리오 판단을 동료와 비교하고 해석의 차이점을 논의 할 수있는 포트폴리오 기간의 중간 단계에서 계획되어야한다 .34)

Differences between assessors can be reduced by engaging them in a discussion of the judgement process.(33) After discussing a benchmark portfolio, for example, assessors’ interpretations of assessment criteria may converge and a joint understanding of the procedure to be followed can be built. Such discussions should preferably be scheduled not only immediately before an assessment round but also at an intermediate stage of the portfolio period when assessors can compare their own portfolio judgements with those of their colleagues and discuss differences of interpretation.(34)

순차적 평가 개발

Develop sequential assessment

        1. 멘토는 지도하에 학생들의 포트폴리오 평가에 대한 추천을합니다. 

        2. 개별 학생과 평가자가 멘토의 추천에 동의하는지 여부를 결정합니다. '동의'는 평가 절차가 완료되었다는 의미이다. 

        3. '동의'가 이루어지지 않는 경우 포트폴리오는 더 큰 평가자 그룹에 제출됩니다

이러한 방식으로 판단을 내리는 포트폴리오는 판단이 만장일치 인 포트폴리오보다 더 신중하게 판단됩니다. 더 많은 심사 위원이 협의되면 평가의 신뢰도가 높아집니다. 또한, 평가자들 간의 토론은 기준의 적용과 관련하여 명확성을 높일 것입니다 ( '평가자 훈련'참조).

Mentors make a recommendation for the assessment of the portfolios of the students under their guidance. Individual students and an assessor decide whether they agree with the mentor’s recommendation. Agreement signals the completion of the assessment procedure. In cases where there is no agreement, the portfolio is submitted to a larger group of assessors. In this way it is ensured that portfolios causing doubt are judged more carefully than portfolios where judgement is unanimous. As more judges are consulted, the trustworthiness of the assessment increases. Additionally, the discussions between the assessors will enhance clarity with respect to the application of the criteria (see also under ‘Train assessors’).

서술 정보 포함

Include narrative information.

질적, 서술 적 피드백에 대한 포트폴리오 요청을 통합하고이 정보를 평가 절차에 상당한 비중을 부여하십시오. 서술 의견은 학습자와 평가자에게 정량적 인 수치 피드백보다 훨씬 더 풍부한 정보를 제공합니다. (16)

Incorporate in the portfolio requests for qualitative, narrative feedback and give this information substantial weight in the assessment procedure. Narrative comments offer learners and assessors much richer information than quantitative, numerical feedback.(16)

직장 평가에서 관련된 문제는 평가자의 관대함입니다. 여러 가지 이유로 낮은 점수는 실제로는 드물고 결과적으로 점수는 일반적으로 매우 차별적이지 않다. (35) 그러나 서사 피드백은 학습자의 성과에 대해보다 상세하고 차별적 인 정보를 제공하기도한다. 평가자는 평가 양식에 전용 공간을 제공하여 서사 피드백을 제공 할 수 있습니다.

A related problem in workplace assessment is rater’s leniency. For various reasons low scores are a rarity in practice, and consequently scores generally do not discriminate very well.(35) Narrative feedback, however, often provides more detailed and discriminative information about learner performance. Assessors can be encouraged to give narrative feedback by providing dedicated spaces in the assessment form.

명확한 루브릭과 기술어 사용

Use clear rubrics or descriptors

교육 기관은 종종 역량 프로필을 생성하는 데 많은 에너지를 투입합니다. 중요한 것은 

        • 학습자가 할 수 있어야하는 모든 것을 상세히 설명하는 매우 긴 구체적인 기준 목록( '할 수있다 - 진술')

        • 전반적인 개요를 제공하지만 실제로는 거의없는 글로벌 설명  사이의 균형을 맞추는 것

Education institutions often put a great deal of energy into generating competency profiles. The important thing is to strike a balance between 

        • very long lists of concrete criteria detailing everything a learner must be able to do (‘can do-statements’) on the one hand and 

        • on the other hand global descriptions offering a general outline but little practical guidance for assessors.

포트폴리오 구조와 내용

Portfolio structure and content

포트폴리오에서 평가자에게 의미있는 증거를 제시하기 위해서는 학습자가 보여주고 자하는 역량이나 설명하고자하는 과제를 반영하여 조직되어야한다. (37)이를 위해 캡션이 포트폴리오의 증거에 첨부되어야 하고, 캡션은 그 근거가 무엇을 보여주려는 것인지를 설명해야 한다.

for evidence in a portfolio to be meaningful to assessors, it should be organised to reflect the competencies learners wish to demonstrate or the tasks they wish to illustrate.(37) To this end captions should be attached to the evidence in the portfolio, explaining what the evidence is supposed to show.

학습자가 평가자에게 가치를 결정하기 위해 방대한 양의 자료를 포함시키는 것이 유혹을 불러 일으킬 수도 있지만,이 전략은 권장하지 않습니다. 평가자의 작업량을 증가시킬뿐만 아니라 평가자가 나무때문에 숲을 보지 못하게하여 혼란을 야기 할 수 있습니다. 따라서 학습자가 선택적이어야하며 우수한 선택 기준은 학습 자료가 학습자의 발달과 진행에 대한 통찰력을 제공해야한다는 것입니다.

Although it may be tempting for learners to include a vast amount of materials leaving it up to the assessor to determine their value, this strategy is to be discouraged. For not only does it increase the assessors’ workload, it can also cause confusion by preventing assessors from seeing the wood for the trees. It is therefore important for learners to be selective, and an excellent selection criterion is that materials should provide insight into the learner’s development and progress.

포트폴리오에 포함될 수있는 다양한 자료가 엄청납니다. 우리는 다음 세 가지 유형을 구별합니다. (2)

• 성과물 - 보고서, 논문, 환자 관리 계획, 배출 편지, 주제에 대한 비판적 평가

• 인상 - 사진, 비디오, 관찰 보고서

• 평가자료 - 테스트 점수, 피드백 양식 (예 : 미니 CEX, 다중 소스 피드백), 감상을 표현하는 환자 또는 동료의 편지, 인증서.

The variety of materials that may be included in a portfolio is huge. We distinguish the following three types.(2)

• Products – reports, papers, patient management plans, letters of discharge, critical appraisals of a topic

• Impressions – photographs, videos, observation reports

• Evaluations – test scores, feedback forms (e.g. mini-CEX, multisource feedback), letters from patients or colleagues expressing appreciation, certificates.

성찰을 촉진하기 위한 포트폴리오

Portfolios to stimulate reflection

성찰의 사이클

Cycles of reflection

Elsewhere we have defined ‘reflection’ as ‘letting future behaviour be guided by a systematic and critical analysis of past actions and their consequences’.(38) Learning from participating in the workplace is the process of transforming experiences into knowledge, skills, attitudes and values, a process that can be represented graphically by experiential learning cycles,

ALACT model 

We will illustrate this using Korthagen’s ALACT model (see Figure 14.3).(31,39)



이 사이클은 행동으로 시작됩니다. 학습자가 기존 역량을 향상시키면서 동시에 새로운 역량을 습득 할 수있게하려면 필요한 모든 역량을 포괄하는 과제 구성을 미리 선택하는 것이 중요합니다.

The cycle kicks off with action. To enable learners to improve their existing competencies while concurrently acquiring new ones, it is important to pre-select a task mix covering all the competencies required.

행동 돌아보기: 평가 

Looking back on action: Evaluation

Boud (41) Eva and Regehr (30)는 외부 소스로부터 피드백과 정보를 명시 적으로 찾아내어 외부를 바라 보는 개인적인 책임을지는 과정으로서 추구하는 자기 주도적 평가를 설명한다. 이 단계에서 포트폴리오는 정보를 저장하고 달성 할 수있는 역량에 따라 정보가 저장되고 구성되는 '폴더'가 될 것이며 증거가 나타내는 내용과 성과 수준에 대한 결론을 나타내는 캡션이 표시됩니다.

Following Boud,(41) Eva and Regehr(30) describe self-directed assessment seeking as a process of taking personal responsibility for looking outward by explicitly seeking feedback and information from external sources. At this stage, the portfolio would be the ‘folder’ in which the information is stored and organised in line with the competencies to be attained and with captions indicating what the evidence shows and the conclusions to be drawn about the level of performance.

필수적 측면 인식: 분석 
Awareness of essential aspects: Analysis

다음 단계에서는 분석, 데이터 검사, 패턴 감지 및 원인 및 결과 연관성 확인이 포함됩니다. 이 단계에서 이론은 패턴과 인과 관계를 확인하는 데 도움이 될 수 있습니다. 연구 결과에 따르면 학습자가 자신의 성과를 적절하게 분석 할 수 없다는 사실은 자명하지 않다 .42)이를 고려하여 Korthagen 등 (39)은 멘토가 학습자에게 질문을 던짐으로써 자신과 타인의 행동에 깔린 이유를 탐구하고, 분석에서의 모순점을 찾아 낼 수 있다고 권고했다.

In the next step, the analysis, data are examined, patterns detected, and cause and effect associations identified. At this stage, theory can be helpful to identify patterns and causal associations. Research shows that it is not selfevident that learners are able to analyse their own performance appropriately.(42) In view of this, Korthagen et al.(39) recommend that mentors should ask questions to stimulate learners to discover and explicate the reasons underlying their own and others’ actions and to pinpoint any inconsistencies in the analysis.

대안적 행동 방법 발견: 변화 

Creating or identifying alternative methods of action: Change

분석 다음으로는 대체 방법을 선택해야합니다. 멘토는 학습자가 대안적 행동을 고려하고, 사용할 행동을 결정하고, 그 선택을 정당화하도록 도와줘야 한다.

Following and based on the analysis, alternative methods of action should be selected. It is the role of the mentor to encourage the learner to consider alternative courses of action, decide which one to use, and justify that choice.

포트폴리오 구조와 내용

Portfolio structure and content

성찰을 목표로하는 포트폴리오에서 written contribution은 두드러지는 특징입니다. 이러한 성찰은 학습자가 습득하고자하는 역량과 관련 될 수 있으며, 학습자는 일반적으로 성과를 평가하고, 이미 습득 한 것을 분석하고, 추가 역량이 필요한 개발 역량을 결정합니다. (31)

In portfolios aimed at stimulating reflection, written contributions feature prominently. These reflections can relate to the competencies the learner wishes to acquire, and the learner will generally also evaluate performance, analyse what has already been mastered, and determine which competencies need further development.(31)

성찰을 자극하기 위해 특별히 고안된 포트폴리오에서 성찰은 포트폴리오 구조의 중심에 있으며, 학습자는 포트폴리오의 자료 및 개요를 근거로 성찰을 서포트한다. (43) 이것은 학습자가 성찰과 증거 자료의 일관성을 목표로 하게 만듦으로써 성찰에 집중할 수있게 도와줍니다. 

In  portfolios  that  are  specifically  aimed  at  stimulating reflection,  the  reflections  are  central  in  the  portfolio  structure, with learners supporting their reflections by referring to  materials  and  overviews  in  the  portfolio.(43)  This  helps  to  focus  the  reflections,  because  learners  are  likely  to  aim  for consistency of  reflections and evidential materials. 

성찰이 증거에 의해 뒷받침되게 하는 것은 성찰을 덜 어정쩡하게non-committal 만드는 데 도움이됩니다. 예를 들어, 학습자가 임상 프리젠테이션을하는 법을 배웠다는 것을 간단하게 표명하는 것은 용납 할 수 없습니다. 증거 자료와 개요로이 진술을 입증해야합니다.

The requirement that reflections be supported by evidence helps to make reflections less non-committal. It is, for instance, not acceptable for learners to simply state that they have learned how to give a clinical presentation: they have to substantiate this statement by evidential materials and overviews demonstrating why and how they have done this.


포트폴리오 접근법은 이론적으로도 실용적인 장점이 있습니다.

The portfolio approach has theoretical as well as practical merits.

포트폴리오는 밀러의 '할'수준에서 평가를 활성화하여 평가 격차를 줄입니다. 반사 적 글쓰기를 포함하는 포트폴리오는 학습자가 '자기와의 대화'에 참여해야하며, 다른 사람과의 토론을 거쳐 포트폴리오의 증거와의 일관성을 유지함으로써 향상 될 수 있습니다.

the portfolio closes the assessment gap by enabling assessment at Miller’s ‘does’ level. Portfolios that include reflective writing require learners to engage in a ‘conversation with self’, which can be enhanced by reflective discussions with another person and by aiming for consistency with the evidence in the portfolio.

포트폴리오는 그 자체로는 작동하지 않습니다. 아마 가장 중요한 요소는 멘토입니다 : 학습자가 자신의 포트폴리오 내용을 논의하는 사람 (Box 14.4 참조).

Portfolios do not work of and by themselves. Probably the most crucial factor is the mentor: a person with whom the learner discusses the content of his/her portfolio (see Box 14.4).

Portfolios in personal and professional development

First published: 1 November 2013
Cited by:1


Portfolios are a useful vehicle for supporting and assessing learning in the clinical workplace. This chapter focuses on diversity of portfolios in personal and professional development, and its use for the monitoring and planning of competency development. It deals with portfolio assessment, and the use of portfolios to stimulate reflection. The traditional psychometric approach, characterised by a focus on objective judgement based on standardisation and analytical assessment criteria has been found to be incompatible with the essentially non‐standardised nature of many portfolios centred around the individual characteristics and challenges of individual learners and specific workplaces. The portfolio approach has theoretical as well as practical merits. It can capture performance and development in the workplace using qualitative information that can take into account unique characteristics of specific workplaces.

미국 의과대학에서 포트폴리오 활용 현황(Med Teach, 2016)

Status of portfolios in undergraduate medical education in the LCME accredited US medical school




1University of Florida, USA, 2Vanderbilt University, USA, 3Northwestern University, USA, 4New York University, USA,

5West Virginia School of Osteopathic Medicine, USA, 6Washington University, USA, 7Michigan State University, USA



  • '포트폴리오'라는 용어는 전통적으로 예술가들이 자신의 작품을 포터블 컬렉션으로 묘사하는 데 사용되어 왔습니다. 

  • 포트폴리오는 다양한 목적으로 모아진 학생 작품 모음으로도 설명되었습니다 (Arter & Spandel 1992). 

    • 학업 성취도 평가

    • 지속적인 학업 성과물 아카이브 구축,

    • 학생들이 학습자 발달을 모니터링하여 학습 표준에 부합하는지 판단 (Arter & Spandel 1992).

  • The term ‘‘portfolio’’ has traditionally been used by artists to describe a portable collection of their work. 

  • A portfolio has also been described as a compilation of student work assembled for many purposes, which may include: 

    • evaluating academic achievement, 

    • creating a lasting archive of academic work products, and 

    • determining whether students have met learning standards by monitoring learner development (Arter & Spandel 1992). 

Bird (1990)는 학생평가 및 의학교육에서 포트폴리오를 사용한다는 아이디어를 처음 소개했습니다

  • Driessen은 authentic 평가뿐만 아니라 자기-비판적 의사로 교육하기 위해 성찰적 사고를 자극하기위한 포트폴리오 사용에 대해 설명합니다 (Driessen 2008). 

  • 포트폴리오에는 시간이 지남에 따라 학생의 역량 개발 (Van der Vleuten 외 2014)과 자료 수집을 통한 학습자의 전문적 성장에 대한 문서화 (Tochel et al. 2009)를 추적 할 수있는 "서류dossier 기능"이 있습니다. 

  • 전자 포트폴리오는 학생에 대한 집계 된 정보의 시각적 표현을 효과적으로 제공 할 수 있고 공식 및 비공식 피드백의 저장소 역할을 할 수 있습니다 (Van der Vleuten 외 2014). 

  • 포트폴리오가 잘 구현되고 다른 평가 방법으로 삼각측량된다면, 학습자의 전문성 개발을 지원할 수 있다는 증거가있다 (Driessen et al., 2007, Van Tartwijk & Driessen 2009).

An essay by Bird (1990) introduced the idea of using portfolios in student assessment and in medical education 

  • Driessen describes using portfolios not only for authentic assessment but also for stimulating reflective thinking in order to educate self-critical doctors (Driessen 2008). 

  • Portfolios have a ‘‘dossier function’’ that allows tracking a student’s development of competency over time (Van der Vleuten et al. 2014) and documentation of professional growth of a learner through a collection of material (Tochel et al. 2009). 

  • Electronic portfolios can effectively provide a visual representation of aggregated information about students and serve as a repository of formal and informal feedback (Van der Vleuten et al. 2014). 

  • There is evidence that if portfolios are well implemented and triangulated with other assessment meth- odologies, they can support the professional development of learners (Driessen et al. 2007; Van Tartwijk & Driessen 2009).

포트폴리오는 마일스톤 및 EPA 적용에 특히 적절한데, 감독이 없는 상태에서의 의료 행위에 대한 의사의 발달 과정을 문서화하기 때문이다 (Frank et al. 2010; Ten Cate 2013)

Portfolios are especially relevant to the application of milestones and EPAs through the documentation of developmental progression of a physician to unsupervised medical practice (Frank et al. 2010; Ten Cate 2013).

포트폴리오는 특히 직장 기반 평가WBA의 문서화, 집계, 분석에 적합한데, 이는 역량 기반 교육, 이정표, EPA, 밀러 피라미드의 'does'에 필수적이기 때문이다. (Driessen 외 2003 ). 다른 형태의 평가와 마찬가지로, 교육자들은 포트폴리오 뒤에있는 교육적 철학을 설명하고, 포트폴리오와 관련하여 "무엇", "왜", "어떻게", "누가", "언제"라는 질문에 대답 할 필요가 있습니다 (Van Tartwijk & Driessen 2009). 그러나 포트폴리오 구현은 쉽지 않습니다. Tartwijk et al. 이해 관계자로부터의 바이인buy-in 또는 참여 약속, 학업 리더십 지원 및 인프라 제공 (Van Tartwijk & Driessen 2009)과 등 포트폴리오 성공을 위해 많은 조건을 충족해야한다고 설명합니다.

Portfolios are particularly well suited to provide space for documenting, aggregating, and analyzing workplace-based assessment which is fundamental for competency-based education, milestones and EPA’s or the ‘‘does-level’’ of the Millers pyramid (Driessen et al. 2003). Like other forms of assessment, educators need to address the educational philosophy behind portfolios and answer the ‘‘what’’, ‘‘why’’, ‘‘how’’, ‘‘who’’ and ‘‘when’’ questions in regards to the portfolio (Van Tartwijk & Driessen 2009). However, implementation of portfolios is not straightforward. Tartwijk et al. document that many conditions need to be fulfilled for portfolio success including buy-in or commitment of interest from stakeholders, support from academic leadership and provision of infrastructure (Van Tartwijk & Driessen 2009). 

포트폴리오 형식은 다양 할 수 있으며 주로 종이 기반 또는 전자 형식 일 수 있습니다. 오늘날 많은 학생들이 디지털 원주민이며 신기술 (웰스 외 2015)에 적응할 수 있기 때문에, 전자 포트폴리오가 고생스럽다labor고 느끼지 않는다는 증거가있다 (Burch & Seggie 2005). 이것은 기술에 취약한 많은 교수들과 대조되며, 교수들이 저항하는 한 가지 이유이기도 하다. 포트폴리오를 CPD에 사용하는 것은 개별 학습 스타일과 기술 지원에 의해 수용가능성과 사용이 영향을 받아 그 성과가 일관되지 않다고 지적했다 (Dornan et al., 2002). 연구 결과에 따르면 종이 기반 포트폴리오에 비해 전자 포트폴리오가

  • 학생 동기 부여를 강화하고,

  • 멘토에게는 더욱 사용자 친화적

  • 더 나은 맞춤 설정이 가능하고

  • 데이터 조작이 쉬우며

  • 정보를 공유하고 전달하는 능력이 증가했다

사실, 일대일 비교했을 때 사용자는 하이퍼링크를 통해 증거를 빨리 검색하고 강사가 편리하게 다양한 사이트에서 액세스 할 수 있으므로 전자 포트폴리오를 사용하기가 더 쉽다고 동의했습니다 (Driessen 외 2007; Tochel et al., 2009).

The format of portfolios can vary widely, and can be primarily paper-based or electronic. Evidence shows that medical not intensive students do find electronic portfolios labor (Burch & Seggie 2005) as many of today’s students are ‘‘digital natives’’ and are adaptable to new technologies (Wells et al. 2015). This contrasts with many faculty who are less facile with technology, which may contribute to some of the faculty resistance. Others have noted that acceptability and use in continuing professional development influenced by individual learning styles and technical support may result in mixed success (Dornan et al. 2002). Research shows that when compared to paper-based portfolios, electronic portfolios: 

  • enhance student motivation, 

  • were more user-friendly for the mentors (Driessen et al. 2007), 

  • offered better customization, 

  • ease for data manipulation, and 

  • increased ability to share and transfer information (Tochel et al. 2009; Vernazza et al. 2011). 

In fact, when compared head-to-head, users unanimously agree that electronic portfolios were easier to use as they allow faster retrieval of evidence through hyperlinks, and enable access from a variety of sites at the instructor’s convenience (Driessen et al. 2007; Tochel et al. 2009).

포트폴리오의 목적, 구조 및 내용 (Dannefer & Henson 2007, Buckley et al. 2009)에는 포트폴리오를 활용하여 포트폴리오의 반영을 서술하는 것을 포함하여 상당한 성격이 반영되어있다.

  • 성찰 저널, 성찰 에세이, 자기 평가, 개선을 위한 행동 기술  (Driessen et al 2003; Pitkala & Mantyranta 2003; Pitka¨la¨ & Ma'ntyranta 2004; Rees & Sheard 2004; Rees et al 2005);

  • 학습 목표의 문서화 및 성취 (Lonka et al., 2001; Supiano et al., 2002; Grant et al., 2006);

  • 개인적 및 직업적 개발 평가 (Gordon 2003); 

  • 대학원 교육 준비 (Rees & Sheard 2004, Rees 외. 2005).

Considerable variation has been noted in the purpose, structure and content of portfolios (Dannefer & Henson 2007; Buckley et al. 2009) including descriptions of utilization of portfolios to promote reflection through often mandatory written reflections including 

  • reflective journals, reflective essays, self-evaluations and descriptions of actions to achieve improvement (Driessen et al. 2003; Pitkala & Mantyranta 2003; Pitka¨la¨ & Ma¨ntyranta 2004; Rees & Sheard 2004; Rees et al. 2005); 

  • documentation of and achievement of learning goals (Lonka et al. 2001; Supiano et al. 2002; Grant et al. 2006); 

  • assessment of personal and professional development(Gordon 2003); and 

  • preparation for postgraduate training (Rees & Sheard 2004; Rees et al. 2005).





An online 21-question survey (Table 1) was delivered using Qualtrics, LLC software (UT). Invitations to participate in this survey were e-mailed to allopathic medical school deans or their educational representatives of Liaison Committee for Medical Education (LCME); accredited medical schools (the accrediting body in the US). Within this e-mail, all participants received a personalized link to the survey, with those not responding receiving a maximum of three reminder e-mails. Data was collected from 10/1/14 to 03/31/15, and participants’ responses were stored in a confidential online database provided by Qualtrics, LLC software.

설문 개발

Survey development

Construction of the survey was guided by the literature. Key sections included 

  • demographic information, 

  • structure and IT aspects of portfolios, 

  • perceived satisfaction, 

  • barriers and factors contributing to engagement with the portfolio. 

The questions pertaining to satisfaction and engagement included a 5-point Likert scale (strongly disagree to strongly agree) as well as free text space. Open-ended questions asked participants to describe success factors, barriers and other information about portfolio usage at their institution.

자료 분석

Data analysis

Categorical and ordinal data were analyzed using descriptive statistical tools provided by Qualtrics, LLC software. The qualitative data was examined using an inductive content analysis approach. Two of the authors (ZZ, AW) independently analyzed the data. Themes were identified and coded, and comments assigned to themes. Inter-rater reliability of identified themes and comments assigned to themes were calculated using Miles and Huberman’s formula (Huberman & Miles 2002) as follows:

Inter-rater reliability was 100% after discussion between the two authors. To ensure trustworthiness of the qualitative data analysis, criteria for trustworthiness recommended by Barzansky (Barzansky et al. 1985) were applied and triangulation was achieved by comparing results to available literature. A survey respondent was asked to do a member check i.e. review results and comment on the themes captured.



포트폴리오를 활용했다는 응답자의 76 %는 포트폴리오가 주로 전자적인 반면, 주로 종이 기반의 포트폴리오와 종이 기반의 전자 포트폴리오를 사용한 보고서는 각각 7 %와 14 %에 불과하다고 답했습니다. 포트폴리오에 대해 가장 자주보고 된 IT 플랫폼은 공급 업체가 제공 한 것 (64 %)입니다.

Seventy-six percent of the respondents who indicated that they utilized portfolios stated that their portfolios were primarily electronic, while only 7% and 14% reported using portfolios that were primarily paper-based and a combination of paper-based and electronic, respectively. The most frequently reported IT platform for portfolios were vendor-supplied (64%).

포트폴리오 구현에 영향을 미치는 요인에 대해 질문하는 개방형 질문 (표 2)의 질적 분석은 성공 요인과 실행 장벽이라는 두 가지 주요 주제를 나타 냈습니다. 몇 가지 성공 요인이 확인되었습니다. 여섯 가지 성공 요인 하위 항목은 다음과 같은 중요성을 강조합니다.

  • (1) 포트폴리오 코치 / 멘토 참여시키기

  • (2) 교수 개발,

  • (3) 명확한 목표 설정 / 포트폴리오 청사진 개발,

  • (4) 조정 된 실행 노력,

  • (5) 학생 참여 및 구매 및

  • (6) 평가와 관련된 이슈의 영향.

Qualitative analysis of the open-ended questions (Table 2) asking about factors impacting implementation of portfolios revealed two main themes: success factors and barriers to implementation. Several success factors were identified. The six success factor subthemes highlight the importance of: 

  • (1) engaged portfolio coaches/mentors, 

  • (2) faculty development, 

  • (3) laying down clear objectives/development of a portfolio blueprint, 

  • (4) coordinated implementation effort, 

  • (5) student engagement and buy-in and 

  • (6) impact of assessment related issues.

참여자는 또한 포트폴리오 구현에 대한 주요 장벽을 확인했습니다 (표 2). 7 개의 장벽 하위 영역이 확인되었습니다.

  • (1) 교수 개발 부족,

  • (2) 열악한 IT 지원,

  • (3) 통합 부족,

  • (4) 필요한 기술을 개발하는 시간과 비용 문제

  • (5) 학생의 성찰적 쓰기에 대한 (낮은) 수용

  • (6) 학생의 "바이 인 (buy-in)"의 가치가 부족

  • (7) 레지던트 디렉터와 인정기구의 불명확한 이용.

Participants also identified key barriers to implementation of portfolios (Table 2). Seven barrier subthemes were identified: 

  • (1) lack of faculty development, 

  • (2) poor IT support, 

  • (3) lack of integration, 

  • (4) time and cost issues todevelop the required technology,

  •  (5) acceptability of reflectivewriting by students, 

  • (6) lack of student ‘‘buy-in’’ to its valueand 

  • (7) unclear utilization by residency directors and accredit-ing bodies. 

참가자들은 종종 학생들이 가치를 인식하지 못하기 때문에 "메타 성찰"을 위해서는 "문화의 변화"가 필요하다고 지적했다. 한 응답자의 대표적인 의견은 다음과 같다 :

Participants noted that ‘‘meta-reflection’’ (reflection beyond reflection or deeper journey of thought) required ‘‘culture change’’ as students often do not appreciate its value. A representative comment from one respondent was: 

소프트웨어가 불필요하게 구현되는 경우 의과대학생의 시간 낭비입니다. 포트폴리오를 구축하는 데는 많은 시간이 필요하며 학습 곡선이 있습니다. 자신의 목표를 알지 못하면 전자 포트폴리오를 구현하지 말고 항상 licensing board와 상담하십시오. 아니면 다른 보건 과학 분야의 학생들로부터 간단한 기본 포트폴리오 요구 사항을 구현하는 것이 더 안전합니다

It’s a waste of medical students’ time if a software is implemented unnecessarily. It takes a lot of time to build a portfolio and there’s learning curve. Do not implement an e-portfolio unless you know your objectives and always consult with licensing board.Otherwise, it is safer to implement a simple basic portfolio requirement for students from other health sciences discipline instead of medical undergraduates


포트폴리오의 특징

Features of portfolios

포트폴리오를 사용하는이 연구의 대다수 학교는 전자 플랫폼을 활용했습니다. 또한 대다수의 학교는 캠퍼스 외부의 포트폴리오에 액세스 할 수 있도록 지원하여 태블릿 및 휴대 기기를 비롯한 여러 플랫폼을 통해 액세스 할 수 있도록했습니다. 개인용 정보 단말기 (PDA) 나 핸드 헬드 모바일 장치를 사용하는 모바일 임상 전자 포트폴리오는 긍정적 인 결과로 문서화되었지만 인터페이스 문제에 대한 몇 가지 제한 사항이 있습니다 (Garrett & Jackson 2006). 의학 교육에서 포트폴리오의 '교내 밖'사용을 고려해야하는 한 가지 측면은 적절한 '방화벽'을 유지할 필요성이다. 즉 무단 액세스를 차단하고 외부 통신을 허용하여 환자의 기밀성을 보장하도록 설계된 컴퓨터 시스템 네트워크이며, 왜냐하면 의과대학생 포트폴리오에는 환자와의 만남 (예 : 환자 기록)과 직접 관련 된 기록이 있을 수 있기 때문이다.

The majority of schools in this study using portfolios utilized electronic platforms. Additionally, the majority of schools provided access to the portfolio off-campus, granting access through multiple platforms including tablets and mobile devices. Mobile clinical electronic portfolios using personal digital assistants (PDAs) or hand-held mobile devices have been documented with positive results but with some limitations secondary to interface issues (Garrett & Jackson 2006). One aspect that must be considered in the use of portfolios ‘‘off- campus’’ in medical education is the necessity to maintain appropriate ‘‘firewalls’’, i.e. a part of a computer system network that is designed to block unauthorized access while permitting outward communication to ensure patient confidentiality, as artifacts placed in medical student portfolios may be directly related to a patient encounter (e.g. patient write-ups).

최근의 리뷰에 따르면 포트폴리오를 형성 및 총괄 평가에 사용할 수 있다는 사실이 입증되었지만 (Van Tartwijk & Driessen 2009, Van der Vleuten 외 2014), 이번 결과는 학생들이 피드백을 제공하고 progress를 문서화하는 것의 가치를 인식하는 것이 중요하다는 것을 나타냅니다 지나치게 엄격한 포트폴리오 구조가 학생들로부터 부정적인 반응을 이끌어내는 것으로 나타 났다 (Mathers et al., 1999; Driessen et al. 2003, 2005) 학습자는 포트폴리오의 내용을 결정할 수 있는 자유가 있는 것을 좋아하나(Driessen et al. 2005), 어떤 구조와 지침은 필요하다 (McMullan 2006). Donato는 대학원 의학 교육 (Donato & George 2012)의 포트폴리오에 대한 '청사진'을 개발하기위한 가이드 라인을 문서화하고 있지만, 학부 의학 교육에서이 주제에 관한 문헌은 거의 없습니다.

While, recent reviews have established that portfolios can be used for formative and summative assessment (Van Tartwijk & Driessen 2009; Van der Vleuten et al. 2014) our results indicate that it is important that students recognize their value in providing feedback and documenting their progress. An overly rigid portfolio structure has been shown to elicit negative reactions from students (Mathers et al. 1999; Davis et al. 2001; Driessen et al. 2003, 2005) and some freedom to determine content of portfolios leads to appreciation by learners (Driessen et al. 2005), however, some structure and guidance is required (McMullan 2006). Donato documents a guideline for developing a ‘‘blueprint’’ for portfolios in graduate medical education (Donato & George 2012), but there is little literature on this topic in undergraduate medical education.

72 %의 기관이 종단적 역량 기반 포트폴리오를 개발 한 것으로보고되었지만, 24 % (7/29) 기관 만이 "포트폴리오를 통해 시간의 경과에 따라 역량을 그래픽으로 보여 주었다"는 문항에 긍정적으로 응답했다. (각기 다른 맥락에서 다양한 평가 도구와 평가자를 사용하여 구체적인 목표와 학습 성과를 달성하였는지)를 종단적 문서화한 것은 학습자가 여러 역량 영역에서 한 눈에 그 진전을 보일 수 있도록 도와줍니다 (Van der Vleuten 등, 2012). 이 '대시 보드'접근 방식은 교육 프로그램을 통해 시간이 지남에 따라 특정 이정표 및 역량 달성을 문서화하는 데 잠재적으로 매우 효과적 일 수 있습니다.

Though 72% of institutions reported developing a longitudinal competency-based portfolio, only 24% (7/29) institutions agreed or strongly agreed with the statement that their portfolio provided the graphic display of competencies over time. Longitudinal documentation of achievement of specific goals and learning outcomes using a variety of assessment tools and assessors, in different contexts helps to show learners their progress across multiple competency domains at a glance (Van der Vleuten et al. 2012). This ‘‘dashboard’’ approach can be potentially very effective in documenting achievement of specific milestones and competencies over time as one progresses through an educational program.

성공 요인과 장애 요인

Success factors and barriers

Driessen et al. (Driessen et al. 2003)은 멘토가 학부생 훈련을 통해 20 명의 학생들에게 지원을 제공하는 효과적인 프로그램을 설명합니다. 교수진은 '포트폴리오 코치'또는 멘토 역할에 대해 교육 받아야합니다. 따라서 질적 분석에서 두 번째로 중요한 주제는 교수 개발입니다.

Driessen et al. describe (Driessen et al. 2003) an effective program where mentors provide support to 20 students throughout their undergraduate training. Faculty has to be trained for the role of a ‘‘portfolio coach’’ or mentor. Therefore, it is logical that faculty development was the second most important theme identified in the qualitative analysis.

학생들의 저항은 성찰에 대한 기술 부족 때문이었다. '메타 성찰'에 대한 개념을 위해서는 "문화 변화"가 필요했는데, 왜냐하면 학생들은 메타 성찰에 대해서 싫증내했으며, 성찰적 학습에 대한 경험이 거의 없었고, 그것이 무슨 도움이 되는지 거의 몰랐기 때문이다.

Students resistance stemmed from lack of skill in reflection and the concept of ‘‘meta-reflection’’ required ‘‘culture change’’ as students often find it to be tedious (Korthagen et al. 2001), have little experience in reflective learning and do not recognize its benefit.

이와는 대조적으로 가난한 IT 지원, "부피가 큰 기술", 코스 목표와 기술의 통합 부족, 기술 개발에 필요한 시간 및 관련 비용은 모두 본 연구에서 장벽이었고 다른 연구자들에 의해보고되었습니다 (Driessen 외. 2007 ).

In contrast poor IT support, ‘‘bulky technology’’, lack of integration of technology with course objectives, time needed to develop the technology and associated costs were all noted to be barriers in our study and reported by others (Driessen et al. 2007).


 2016 Sep;38(9):886-96. doi: 10.3109/0142159X.2015.1114595. Epub 2015 Dec 10.

Status of portfolios in undergraduate medical education in the LCME accredited US medicalschool.

Author information

a University of Florida , USA .
b Vanderbilt University , USA .
c Northwestern University , USA .
d New York University , USA .
e West Virginia School of Osteopathic Medicine , USA .
f Washington University , USA .
g Michigan State University , USA.



We sought to investigate the number of US medical schools utilizing portfolios, the format of portfolios, information technology (IT) innovations, purpose of portfolios and their ability to engage faculty and students.


A 21-question survey regarding portfolios was sent to the 141 LCME-accreditedUS medical schools. The response rate was 50% (71/141); 47% of respondents (33/71) reported that their medical school used portfolios in some form. Of those, 7% reported the use of paper-based portfolios and 76% use electronic portfolios. Forty-five percent reported portfolio use for formative evaluation only; 48% for both formative and summative evaluation, and 3% for summative evaluation alone.


Seventy-two percent developed a longitudinal, competency-based portfolio. The most common feature of portfolios was reflective writing (79%). Seventy-three percent allow access to the portfolio off-campus, 58% allow usage of tablets and mobile devices, and 9% involve social media within the portfolio. Eighty percent and 69% agreed that the portfolio engaged students and faculty, respectively. Ninety-seven percent reported that the portfolios used at their institution have room for improvement.


While there is significant variation in the purpose and structure of portfolios in the medical schools surveyed, most schools using portfolios reported a high level of engagement with students and faculty.


한국의사면허시험에서 합격점수 결정 (J Educ Eval Health Prof 2007)
Reconsidering the Cut Score of Korean National Medical Licensing Examination

Duck Sun Ahn*, Sowon Ahn
Department of Medical Education, College of Medicine, Korea University, Seoul, Korea


국가 보건 인력인가 심사위원회 (NHPLEB)는 현재 라이센스 요구 사항으로 60-40 %의 컷오프 점수 (전체 검사의 60 %의 정확한 응답과 각 과목의 40 %의 정확한 응답을 의미 함)를 사용합니다. 이 컷오프 점수는 한국의 다양한 국가 시험에 적용되어 합리적이라고 간주됩니다. 그러나 psychometrics의 관점에서 볼 때, 특히 최소의 역량을 획득하지 못한 사람들을 구별하지 못하도록하는 면허 시험의 경우, 절취 점수를 설정하는 유효한 방법이 아닙니다.

The National Health Personnel Licensing Examination Board (NHPLEB) currently uses a cut score of 60-40% (which means 60% correct responses of overall tests and 40% correct responses of each subject) as a license requirement. These cut scores have been applied to various national examinations in Korea and are regarded as reasonable. From the perspective of psychometrics, however, it is not a valid way to set a cut score, especially for a licensing examination that is intended to discern those who acquire minimum competence from those who do not.

합격선 결정에 관한 이론

절단 점수는 응시자가 건강 전문 직업을 수행하기 위해 습득해야하는 지식이나 기술의 최소 수준을 나타냅니다. 커트 점수는 후보자의 역량에 대한 직업적으로 표현 된 가치이며 관련 철학과 일치 된 의견을 반영합니다. 즉, 자르기 점수 설정은 수학적 기법이 아니라 복잡한 정책 결정 과정으로 이해해야합니다.
A cut score indicates the minimum level of knowledge or skill that a candidate must have acquired to perform health professions. Cut scores are professionally expressed value on candidates’ competency, which reflects educational philosophy and consensus among those related. This means that setting cut scores should be understood not as a mathematical technique but as a complex policy-making process.

1) 표준의 유형 결정 (절대 표준과 상대 표준), 
2) 표준 설정 방법 결정, 
3) 심사 위원 선정, 
4) 표준 설정 회의 개최, 
5) 표준 계산, 
6) 결과 확인 [1].
Setting cut scores usually progresses as follows: 
1) Deciding on the type of standard (absolute vs. relative standards), 
2) Deciding on the method for setting standards, 
3) Selecting the judges, 
4) Holding the standard setting meeting, 
5) Calculating the standard, 
6) Checking the results [1].

Angoff 방법은 1990 년대에 객관식 테스트에 사용 된 가장 보편적 인 방법이었다 [3]. 그러나 이 방법은 근본적인 단점이 있습니다. 즉, minimally acceptable person이 각 항목에 올바르게 응답 할 확률을 추정하는 것은 실제로 불가능합니다. 이 단점을 수용하기 위해 몇 가지 수정 사항이 제안되었습니다.
Angoff method had been the most popular method usedfor multiple-choice tests by the 1990s [3]. However, this method has a fundamental drawback, which is that it is practically impossible to estimate the probability that a minimally acceptable person would answer each item correctly. To accommodate this drawback, several modifications were suggested

현재의 합격선에 관한 이슈

현재의 60-40 % 체제는 교육과 철학적 근거가없는 일제 식민 통치 하에서 임의로 설정되었습니다. 또한, 시험 어려움에 따라 유능하지 못한 사람들의 유능하고 운 좋은 패스의 불행한 실패와 같은 심각한 오 분류를 초래할 수 있습니다.
The current 60-40% system was arbitrarily set under Japanese colonial rule, with no educational and philosophical basis. In addition, it can result in gross misclassification, such as the unfortunate failure of the competent and the fortunate pass of the non-competent depending on test difficulty.

표 1은이 현상을 명확하게 보여줍니다. 표 1에서 합격률은 약 95 %이다. 그러나 2001 년과 2003 년의 합격률은 약 85 %로 다른 해보다 낮습니다.
Table 1 clearly demonstrates this phenomenon. In Table 1, the pass rate is approximately 95%. However, the pass rates of 2001 and 2003 drop to approximately 85%, lower than other years.

원칙적으로, 면허 시험과 같은 기준 참조 시험의 어려움은 최적의 합격률을 고려하여 시험 전에 조정되지 않는데 있다. 한국에서는 시험 항목의 유출에 대한 우려로 인해 사전에 난이도를 조정할 수 없습니다. 대신, 시험관은 건강 전문직을 수행하는 데 필요한 기본 지식과 기술을 요구하는 좋은 질문을해야합니다. 현재 60-40 % 기준에는이 최소 수준의 역량이 반영되어 있지 않으므로 변경해야합니다.
In principle, the difficulty of criterion-referenced test such as licensing examination is not adjusted before examination in consideration of optimal passing rate. In Korea, it is not practically possible to adjust the degree of difficulty in advance due to the drainage of test items. Instead, examiners are expected to make good questions asking basic knowledge and skill that are required to perform health professions. Since the current 60-40% criterion does not reflect this minimum level of competence, it should be changed.

요구분석 결과

설문 조사는 정신 분석 계원, 의학 교육자 및 심사관으로부터 의견을 수집하기 위해 수행되었습니다. 우리는 현재의 커팅 점수가 유효한지, 왜 개선 이유가 무엇인지, 그리고 개선 이유에 대해 질문했습니다. 결과는 표 2에 나와있다.
Surveys were conducted to gather input from psychometricians, medical educators, and examiners. We asked whether and why they thought the current cut score was valid and their suggestions for improvement. The results are in Table 2.

다음은 개선을위한 제안 사항입니다. 
  • 첫째, 대부분의 응답자는 절대적인 평가가 유지되어야한다고 생각했습니다. 이렇게하려면 변형 된 점수가 실행 가능한 대안이 될 수 있습니다. 
  • 둘째, 시험 목적을 개발해야한다. 
  • 셋째, 항목 개발을위한 교수 훈련에 대한 투자가 필요합니다. 
  • 넷째, 어려움의 정도를 통제하기 위해 시험 항목을 분석하기위한 과학적이고 체계적인 방법론이 필요하다. 
  • 다섯째, 항목 은행은 보다 현실적인 항목을 보유해야합니다. 
  • 여섯째, 절단 점수를 설정할 때 융통성이 있어야합니다. 예를 들어, Angoff 방법은 이러한 유연성을 제공합니다. 
  • 마지막으로, 절취 점수는 NHPLEB, 의료계 대표 등 이해 관계자 간의 합의하에 설정되어야합니다.
The followings are suggestions for improvement. 
  • First, most of the respondents believed that absolute evaluation should be retained. To do so, transformed scores can be a viable alternative. 
  • Second, examination objectives should be developed. 
  • Third, investment in faculty training for the item development is required. 
  • Fourth, scientific and systematic methodology is needed to analyze test items, to control the degree of difficulty. 
  • Fifth, item bank should hold more realistic items. 
  • Sixth, there should be flexibility in setting the cut score. For example, the Angoff method provides such flexibility. 
  • Finally, the cut score should be set under the agreement among stakeholders such as NHPLEB, medical representatives, and so on.

선진국의 합격선 결정 방법

우리는 여러 선진국의 표준 설정 방법을 분석했습니다. 결과는 표 3에 요약되어있다.
We analyzed the standard setting methods of several developed countries. The results are summarized in Table 3.

그들은 절대 표준에 충실하며 합리적이고 합리적인 표준 설정 과정을 유지하는데 많은 노력을 기울입니다. 이러한 결과는 한국이 정신 분석의 과학적 방법에 기반한 표준 설정 방법을 채택해야 함을 시사한다.
they stick to absolute standards, and put much effort into keeping the process of standard setting rational and reasonable. These results suggest Korea should adopt the standard setting method based on scientific methods of psychometrics.


북마크 [4]와 수정 된 앤 구프 (Angoff) 방법이 한국의 현 상황을 고려한 적절한 합의에 도달했습니다.
We reached the agreement that Bookmark [4] and modified Angoff methods are appropriate considering the current situation in Korea.

북마크 방법
The bookmark method

2002 년 북마크 표준 설정을 적용하여 초등 3 학년 학생들과 비교하여 기본 역량을 갖춘 사람들을 파악했습니다. 한국에서 북마크 방식의 첫 번째 응용 프로그램이었습니다. 이 방법은 표준 설정 패널을 테스트의 특성에 익숙하게하고 패널에 표준 어플리케이션의 결과를 제공합니다. 이 패널은 주제 전문가들로 구성됩니다. Bookmark 방법은 다음과 같이 진행된다 [5].
In 2002, the Bookmark standard setting was applied to discern those who achieved basic competency from those who did not among 3rd year elementary school students. It was the first application of the Bookmark method in Korea. The methodallows a standard setting panel to be accustomed to the char-acteristics of the test and provides the panel with the resultsof standard application. The panel consists of subject experts. The Bookmark method proceeds as follows [5].

a) 패널은 가장 쉬운 것부터 가장 어려운 것 순으로 난이도가 높은 항목을 나열한 주문 된 아이템 소책자 (OIB)를 받았다. OIB를 만들기 위해 항목 응답 이론 (IRT)이 적용되었고, 2/3의 정답 확률이 수험자의 능력을 나타내는 척도로 사용되었습니다.
a) The panel received an ordered item booklet (OIB), which lists items in order of difficulty, from the easiest to the hardest. To make the OIB, item response theory (IRT) was applied and 2/3 probability of correct response was used as a scale score to represent examinee ability.

b) 패널은 소그룹, 일반적으로 6 명에서 8 명으로 구성된 그룹으로 나뉘었다. 소그룹에서는 OIB의 각 항목을 검토하고 항목에 올바르게 대답하는 데 필요한 지식과 기술을 논의했습니다.
b) The panel was divided into small groups-typically groups of six to eight people. In small groups, the panel examined each item in the OIB and discussed knowledge and skills required to answer the item correctly.

c) 그룹 토의 후에, 각 패널리스트는 기초 실력 수준의 학생들이 알아야하고 할 수 있어야하는 것에 대한 자신의 판단에 따라 OIB에 북마크를 배치하여 점수를 결정합니다. 표시된 항목의 눈금 점수가 첫 번째 구분이었습니다.
c) After the group discussion, each panelist determined a cut score by placing a bookmark in the OIB based on his or her own judgment of what students with basic performance level should know and be able to do. The scale score of the marked item was the first demarcation.

d) 패널은 소그룹 토론을 통해 자신의 견해 차이를 타협했다. 패널리스트는 OIB에서 두 번째 경계였던 선택을 표시했습니다.
d) The panel engaged in the small group discussion again to compromise differences in their opinions. The panelists then marked their choice on the OIB, which was the second demarcation.

e) 한 명의 특정 개인이 작은 그룹으로 토론을 지배하지 못하도록 두 개의 소그룹을 중간 규모 그룹으로 합쳤다. 그룹 토론이 끝난 후, 패널은 자신의 선택을 변경할 수있는 또 다른 기회를 얻었고 책갈피를 OIB에 배치했습니다.
e) Two small groups were combined into a mid-sized group to prevent one specific individual from dominating the discussion in small groups. After the group discussion, the panel was given another opportunity to change their choice and placed the bookmark on the OIB.

f) 마지막으로 모든 패널 토론자가 한 곳에서 모여 북마크 선택에 대해 논의했습니다. 토론이 끝난 후, 그들은 최종 선택 기회를 부여 받았다. 그런 다음 최종 북마크를 OIB에 배치했습니다.
f) Finally, all panelists gathered in one place and discussed their choice of bookmarks. After the discussion, they were given a final opportunity to change their choice. They then placed the final bookmark on the OIB.

g) 최종 라운드의 모든 북마크 배치를 수집하고 중앙값을 계산하여 패널의 권장 절단 점수를 설정합니다.
g) All the bookmark placements in the final round were gathered and the median was calculated to set the panel’s recommended cut score.

h) 컷트 점수에 기초하여, 패널은 북마크 앞의 항목을 검사하고 기본 성능 수준의 학생들이 보여줄 수 있어야하는 지식, 기술 및 능력에 대한 요약을 나타내는 성능 수준 설명자를 작성했습니다.
h) Based on the cut score, the panel examined the items before the bookmark and wrote performance-level descriptors that represent a summary of the knowledge, skills, and abilities that students with the basic performance level must be able to demonstrate.

북마크 방법은 패널이 항목 난이도를 정확하게 예측할 수 없다는 Angoff의 방법의 단점을 보완합니다. 또한 psychometric 지식이 거의없는 사람들은 북마크 방법이 성능 수준의 설명을 제공하기 때문에 자르기 점수의 의미와 의미를 이해할 수 있습니다.
The bookmark method compensates for the drawback of the Angoff’s method, which is that the panel cannot correctly estimate item difficulty. In addition, people with little psychometric knowledge can understand the meaning and implication of the cut score because the bookmark method provides performance-level descriptors.

변형된 Angoff
Modified angoff

Angoff의 원래 방법에서는 운영 절단 점수 조사를 실행하는 방법에 대한 세부 정보가 없었습니다. 원래의 방법에서 특이성이 없기 때문에 많은 수정이 제안되었습니다. 다음은 수정 된 Angoff 메소드의 일반적인 프로세스입니다.
In the original Angoff method, there was no details of how to run an operational cut score study. Due to the lack of specificity in the original method, many modifications were suggested. The following is a general process of modified Angoff methods.

a) 패널 선택 : 일반적으로 패널은 주제 전문가, 교사, 관련 관리자 등으로 구성됩니다. 의학 면허 시험의 경우, 패널에는 기초 과학 및 클리닉의 의사 및 교수, 의료 관리자 등이 포함될 수 있습니다. 패널은 컨텐츠 전문가 여야하며 수험생의 특성을 잘 알고 있어야합니다. 적절한 패널 수에 대한 의견이 많지만 적어도 10 명 이상의 패널리스트가 필요하고 15 ~ 20 명의 패널리스트가 이상적이다 [6-9].
a) The choice of a panel: Generally, the panel consists of subject experts, teachers, related administrators, and so on. In case of medical licensing examination, the panel may include doctors and professors of basic science and clinic, medical administrators, and so on. The panel should be content experts and know well the characteristics of examinees. There are diverse opinions on the appropriate number of the panel, but at least 10 panelists are required, while 15~20 panelists are ideal [6-9].

b) Achievement Level Description (ALD) : 성취 수준 개념화는 정책 정의에서부터 시작됩니다. 교육 인적 자원부 또는 보건 복지부와 같은 정부 기관은 성취 수준에 대한 정책 정의를 제공합니다. 이 정책 정의에 기초하여 패널은 각 단계의 성과에 대해 토론하고 설명합니다. 이 설명은 각 레벨의 학생들이 지식, 기술 및 행동 측면에서 알아야 할 일과해야할 일을 지정하고 운영상의 정의를 제공합니다. 모범 사례도 제공 될 수 있습니다. 진행자는 시간을 절약하기 위해 예비 ALD를 패널에 제공하여 패널이 경계선 그룹의 특성에 대한 합의를 통해 표준을 설정하기 시작할 수 있습니다.
b) Achievement Level Description (ALD): Conceptualizing achievement level starts from policy definition. Government agency such as the Ministry of Education & Human Resources Development or the Ministry of Health & Welfare provides a policy definition of achievement levels. Based on this policy definition, the panel discusses and describes performance of each level. This description specifies what students at each level should know and be able to do in terms of knowledge, skills, and behaviors and provides an operational definition. Exemplary items can be provided as well. To save time, the facilitator may provide preliminary ALD with the panel, so that the panel starts to set the standard with some consensus on the characteristics of a borderline group.

c) 실습 : 패널은 모범적 인 항목으로 실습합니다. 유형이 다른 유형의 항목이 혼합 된 경우 각 유형의 항목으로 연습합니다. 특히 성과 항목에 대해서는 실제 성과 데이터를 제공하여 패널이 수험생의 수준을 파악할 수 있도록해야합니다.
c) Practice: The panel practices with exemplary items. In case different types of items are mixed, they practice with each type of item. Especially for performance item, actual performance data should be provided, so that the panel can get a sense of the level of examinees.

d) 첫 번째 추정 : 패널은 3 ~ 4 명으로 구성된 작은 그룹으로 나뉩니다. 패널은 시험에서 실제 항목을 해결합니다. 시험을 마친 후 올바른 답으로 답을 확인합니다. 그런 다음 각 항목에 대해 수위 그룹의 정답 확률을 계산합니다. 개별 평가 후 결과가 수집되고 절단 점수는 각 항목의 중앙값의 합계로 설정됩니다. 컷오프 점수가 게시되고 컷오프 점수 적용 결과가 제공되므로 패널은 현실적인 지 여부를 확인하고 필요한 경우 변경할 수 있습니다.
d) The first round of estimation: The panel is divided into small groups of three or four people. The panel solves actual items on the exam. After solving the exam, they check their answers with correct ones. Then, they estimate the probability of correct answers of a borderline group of examinees for each item. After individual estimation, the results are collected and the cut score is set at the sum of medians of each item. The cut score is posted and the result of cut score application is provided, so that the panel has opportunity to check whether it is realistic and change it if necessary.

e) 두 번째 추정 :이 패널은 중간 규모 그룹으로 나뉘어져있다. 첫 라운드에서 ADL과 그들의 경험을 바탕으로, 그들은 그들의 의견을 교환합니다. 그런 다음 각 항목의 경계선 그룹의 정답 확률을 계산합니다.
e) The second round of estimation: The panel is divided into mid-sized groups. Based on ADL and their experiences at the first round, they exchange their opinions. Then, they estimate the probability of correct answer of a borderline group of examinees for each item.

f) 세 번째 평가 : 모든 패널 토론자가 한 곳에서 모여 토론합니다. 초점은 큰 편차를 보이는 항목에 있습니다. 토론 후에 그들은 세 번째 추정을합니다. 결과는 수집되고 게시됩니다. 세 번째 라운드가 충분하면 세 번째 라운드에서 얻은 커트 포인트가 최종 커팅 점수가됩니다. 절단 된 점수는 척도로 변환됩니다.
f) The third round of estimation: All the panelists gather at one place and discuss. The focus is on the items showing large deviations. After the discussion, they make third estimations. The results are collected and posted. If the third round is enough, the cut point obtained at the third round becomes the final cut score. The cut score is transformed into a scale score.

g) 최소 역량에 대한 설명 : 필요한 경우, 패널은 항목 및 항목에 대한 학생들의 응답을 분석하여 각 레벨의 학생들이 할 수있는 것을 씁니다.
g) Description of minimum competency: If required, the panel writes what students at each level are able to do by analyzing items and students’ response to the items.

Bookmark vs. Modified Angoff Methods

The two methods are compared in terms of process, time and cost, and advantages and disadvantages. The results are shown in Table 4.

위 방법을 적용하는데의 현실적인 이슈

위원회의 필요성 : 표준을 수립하기위한 시험 위주의 접근법에서는 각 과목별로위원회가 있어야합니다. NMLE에는 3 개의 과목이 있으므로 3 개의위원회가 필요합니다. 각위원회마다 20 명의 위원이 구성되어 있다면, 60 명의 위원이 많은 비용을 부담하게됩니다. 예산 부족 및 그에 따른위원회 규모 부족으로 인해 표준을 설정하는 데 타당성이 없어 질 수 있습니다.
Need for committee: In a test-centered approach in setting the standards, there should be a committee for each subject. Since there are three subjects in NMLE, three committees are required. If twenty members are set for each committee, 60 members are in need, which would incur considerable costs. Insufficient budgeting, and consequent insufficient committee size, can lead to the loss of validity in setting the standard.

심리 측정 분석의 필요성 :이 논문에서 권고하는 두 가지 방법 모두는 심리 측정에 대한 과학적 분석을 기반으로합니다. 따라서이 방법을 적용하기 위해서는 고전적인 품목 분석과 IRT가 사전에 적용되어야한다. 예를 들어 북마크 메서드의 OIB에는 IRT를 기반으로 한 사전 분석이 필요합니다. OIB는 추가 시간과 비용이 들지만 패널의 부담을 줄여줍니다.
Need for psychometric analysis: Both methods recommended in the present paper are based on scientific analysis of psychometrics. Therefore, to apply the methods, classical item analysis and IRT should be applied in advance. For example, OIB in the Bookmark method requires pre-analysis based on IRT. The OIB costs extra time and cost, but it lessens the burden of the panel.

추가 비용의 필요성 : 과학적이며 유효한 방법을 적용하려면 추가 비용이 불가피합니다.
Need for extra cost: To apply a scientific and valid method, extra cost is inevitable.

의료법 개정 필요 없음 : 새로운 표준 설정 방법으로 의료법 개정안의 필요성에 관해 질문이 제기됩니다. 그러나 새로운 법으로도 현재 법을 유지할 수 있습니다. 그렇게하는 한 가지 방법은 척도를 척도로 변환하는 것입니다. 그림 1에서 원시 점수의 컷오프 점수는 250이며, 이는 60으로 변경됩니다. 법률 개정이 많은 논란없이 수행 될 수 있다면 현행법을 변경하는 것이 법적 문제를 처리하는 또 다른 방법입니다.
No need for amendment of medical law: A question arises as to the need for amendment of medical law with a new standard setting method. However, the current law can be maintained even with a new method. One way to do so is to transformraw scores to scale scores. In Fig. 1, the cut score of raw scores is 250, which is transformed to 60. If amendment of the law can be done without much argument, changing the current law is another way to deal with legal issues.

테스트 동등화 방법 : 일반적으로 매년 커팅 점수는 설정되지 않습니다. 대신, 통계 기술을 적용하여 다른 테스트를 비교할 수있게합니다. 이를 테스트 동등화 (test equating) [11, 12]라고합니다. 테스트가 동일한 경우 동일한 절단 점수를 연속적으로 사용할 수 있습니다. 그러나 한국에서는 시험 항목의 유출에 대한 우려로 인해 test equating method를 적용하는 것이 현실적으로 불가능합니다. 이 경우, 매년 커트라인이 설정되는 곳에서, 여러 해에 걸친 커트라인의 비교가 합리적 일 것입니다.
Test equating method: In general, the cut score is not set every year. Instead, a statistical technique is applied to make different tests comparable. This is called test equating [11, 12]. If tests are equated, the same cut score can be used continuously. However, it is not practically possible in Korea to apply test equating methods due to a drainage of test items. In this case, where the cut score is set every year, comparison of cut scores across different years would be reasonable.


북마크 및 수정 된 Angoff 방법을 현재 시스템의 대안으로 사용할 수 있습니다. 이러한 새로운 방법을 적용하려면 몇 가지 문제를 미리 해결해야합니다. 
Bookmark and the modified Angoff methods as viable alternatives to the current system. To apply these new methods, several issues must be resolved beforehand. 

첫째, 면허 시험 자체의 철학적 의미를 재고해야한다. 현재의 고정 된 컷트 점수에서 라이센스 또는 인증 시험의 개념을 위반하는 합격률의 급격한 변화를 막기 위해 테스트 난이도를 미리 조정해야합니다.
First, the philosophical meaning of licensing examination itself should be reconsidered. Under the current fixed cut score, test difficulty should be adjusted in advance in order to prevent a radical change in pass rates, which violates the concept of licensing or certifying examinations.

둘째, 표준 설정에 대한 철학적 재검토가 필요합니다. 현재 60-40 %는 철학적 또는 교육적 근거없이 설정되었습니다. 따라서 우리는 면허 시험의 의미와 철학에 근거하여 절단 점수를 설정해야합니다.
Second, philosophical reconsideration of the standard setting is required. The current 60-40% was set without any philosophical or educational rationale. Therefore, we need to set the cut score based on the meaning and philosophy of license examination.

셋째, 시험 항목의 보안 및 저작권 문제를 해결해야한다. 현재, NHPLEB는 원칙적으로 시험 항목을 공개하지 않습니다. 그러나 수험생은 시험을 치른 후에 동료에게 아이템을 공개하므로 원래 테스트를 거의 복원 할 수 있습니다. 이것은 명백히 저작권 침해입니다. 그러나 한국에서는 이런 종류의 행위가 심각한 것으로 간주되지 않으며 관련된 행위는 도덕적 인 후회를 나타내지 않습니다. 가까운 장래에 이러한 표절의 관행이 통제되어야합니다.
Third, the issue of security and copyright of test items should be resolved. Currently, the NHPLEB as a rule does not release test items. However, examinees release the items to their peers after their examination, making it possible to almost restore the original test. This is obviously infringement of copyright. In Korea, however, this kind of act is not regarded as serious and those related show no moral remorse. This common practice of plagiarism should be controlled in the near future.

 2007;4:1. doi: 10.3352/jeehp.2007.4.1. Epub 2007 Apr 28.

Reconsidering the cut score of Korean National Medical Licensing Examination.

Author information

Department of Medical Education, College of Medicine, Korea University, Seoul, Korea. dsahn@korea.ac.kr


After briefly reviewing theories of standard setting we analyzed the problems of the current cut scores. Then, we reported the results of need assessment on the standard setting among medical educators and psychometricians. Analyses of the standard setting methods of developed countries were reported as well. Based on these findings, we suggested the Bookmark and the modified Angoff methods as alternative methods for setting standard. Possible problems and challenges were discussed when these methods were applied to the National Medical Licensing Examination.


Bookmark Method; Cut Score; Modified Angoff Method; Psychometrics; Standard Setting


레지던트 선발에서 USMLE Step 1 점수의 역할 재평가 권유(Acad Med, 2016)

A Plea to Reassess the Role of United States Medical Licensing Examination Step 1 Scores in Residency Selection

Charles G. Prober, MD, Joseph C. Kolars, MD, Lewis R. First, MD, and Donald E. Melnick, MD

National Board of Medical Examiners와 State Medical Boards는 "개별 면허 기관 ... 의료 면허를위한 공통 평가 제도"를 제공하기 위해 USMLE (미국 의료 면허 시험) 3 단계를 개발했습니다.

The National Board of Medical Examiners and the Federation of State Medical Boards developed the three-step United States Medical Licensing Examination (USMLE) to provide “individual medical licensing authorities … a common evaluation system for medical licensure.”

1 일 객관식 시험 인 USMLE 1 단계 구성 요소는 "현대 의학을 안전하고 유능하게 실천하기 위한 기초를 제공하고, 평생 학습을 통해 역량의 유지에 필요한 과학적 원리를 제공하기 위해서" 이루어진다.

The USMLE Step 1 component, a one-day multiple-choice examination, is designed to ensure “mastery of the sciences that provide a foundation for the safe and competent practice of medicine in the present, as well as the scientific principles required for maintenance of competence through lifelong learning.”1

시험 결과는 바이너리입니다. 일련의 시험에 합격 한 응시자는 주 면허증을받을 수 있습니다. 실패한 사람들은 그렇지 않습니다.

The primary consequence of the test result is binary. Candidates who pass the series of examinations are eligible for state licensure; those who fail are not.

USMLE 모델은 커다란 "전국 의학부 (National Faculty of Medicine)"에서 핵심 의학 교육 내용에 대한 국가적 합의를 이끌어 내도록 설계되었습니다. 2

The USMLE model, is designed to harvest a national consensus about core medical education content from a large “national faculty of medicine.”2 

미국의 의학 교육 및 의학 면허를 광범위하게 대표할 수 있는 기초의학자, 임상 교수 및 의사가 선정됩니다.

Basic scientists, clinical faculty, and practicing doctors are selected to be broadly representative of medical education and medical licensure in the United States;

면허 자격 요건을 결정하는 것 외에도 USMLE 시험 결과, 특히 1 단계 점수는 레지던트 지원자를 스크리닝하는 데 자주 사용됩니다 .8 비록 USMLE 단계의 점수는 서로 관련이 있고 USMLE 1 단계의 낮은 점수는 여러 전문과목에서 다음 단계의 실패와 관련이 있는 것으로 보고되나, 1단계 시험은 레지던트의 성공 가능성에 대한 주요 결정요인으로서 고안되지 않았습니다.

In addition to determining qualification for licensure, USMLE test results, particularly Step 1 scores, are often used in screening applicants for residency.8 Although scores on the USMLE steps correlate with one another and low scores on USMLE Step 1 correlate with failure on subsequent in-training and certification exams in many specialties,9 Step 1 was not designed to be a primary determinant of the likelihood of success in residency.

작업을위한 도구 부족

An Insufficient Tool for the Job

의도 된 목적에도 불구하고, 많은 레지던트 프로그램 디렉터들은 계속해서 인터뷰 대상 후보자를 선택하기위한 단독 또는 기본 필터로 신청자의 USMLE 1 단계 점수를 사용합니다.

Despite its intended purpose, many residency program directors continue to use applicants’ USMLE Step 1 scores as a sole or primary filter for selecting candidates to interview,10

일반적으로 레지던트 분야 (예 : 정형 외과 수술, 방사선 종양학, 피부과, 안과 및 이비인후과)의 경쟁력이 높을수록 필터를 통과해야하는 USMLE 1 단계 점수가 높아집니다.

In general, the more competitive the residency discipline (e.g., orthopedic surgery, radiation oncology, dermatology, ophthalmology, and otolaryngology), the higher the USMLE Step 1 score needed to pass through the filter.

USMLE 합격 점수는 부적절한 지식을 가진 사람들로부터 충분한 지식을 가진 사람들을 구별하여 시험 응시자 간의 지식 차이를 추론하기위한 것이 아닙니다. 그러나 USMLE 1 단계의 점수는 많은 레지던트 교육 프로그램에서 인터뷰 제공의 주요 요인으로 채택되었는데, 종종 프로그램 디렉터가 커리큘럼 및 평가의 차이로 인해 다른 의과 대학의 학생들을 비교하기가 어려워 보였기 때문입니다. 표준화 된 USMLE 1 단계 점수는 이러한 필요를 충족시키는 것으로 인식됩니다.

The USMLE pass score is intended to segregate those with adequate knowledge from those with inadequate knowledge, not to infer substantial differences in knowledge between test takers. Yet, scores from USMLE Step 1 have been adopted by many residency training programs as a major factor in offering interviews, often because program directors find it difficult to compare students from different medical schools because of variations in curricula and assessments. The standardized USMLE Step 1 score is perceived to meet this need.

그러나 레지던트 선발의 1차 스크리닝에 1단계 점수를 사용하는 것은, 충분한 증거에 의해 뒷받침되지 않으며, 그러한 목적으로 설계되지 않은 시험에 의거하여 의대 졸업생에 대한 중요한 career-changing 결정을 내리는 것이다.

programs may make careerchanging decisions about medical school graduates based on overweighting a screening test in a manner not supported by strong evidence and for which the test was not specifically designed.

의도하지 않은 결과

Unintended Consequences

레지던트 선발의 스크리닝으로 Absolute USMLE 점수를 부적절하게 사용하는 것에 대한 우려 외에도, 지원자의 USMLE 점수에 너무 많은 중점을 두는 것에 의도하지 않은 결과가 추가로 발생합니다. 우리는 늘상 특정 전문 영역에 지원하려는 계획을 포기하기로 결정한 학생들을 알아 봅니다. 왜냐하면 USMLE 점수가 중간 정도에 불과해서 자신이 초기에 탈락할 것이라 생각하기 때문입니다. 반대로 높은 점수를 가진 다른 학생들은 더 경쟁적인 전공에 지원할 것으로 권유되는데, 왜냐면 그렇지 않을 경우 "지능을 낭비한다"고 여겨지기 때문이다!

Beyond concerns about inappropriately using the absolute USMLE score as a sole screen for residency applicants, there are additional unintended consequences to placing so much emphasis on applicants’ USMLE scores. We regularly learn of students who have decided to abandon their plans to apply to certain specialty areas because they believe that their application will be not be considered in the initial screening process because of a USMLE score around the median. Other students who have high scores are encouraged to pursue the more competitive specialties because they might otherwise “waste their intelligence” in the pursuit of a less demanding discipline!

학생들은 USMLE의 높은 stakes을 인식하기 때문에 사전 학습 과정에서 시험에 중요하다고 생각하는 것만을 우선 학습합니다. 그들은 시험에 필요한 것과 환자를 돌보고 평생 학습을 준비하기 위해 알아야 할 것들 사이에서 불일치를 발견하면서 정신적으로 스트레스를 받는다.

Because students recognize the high stakes of USMLE, they prioritize learning what they believe to be important for the test during their preclerkship courses. They are emotionally stressed about perceived disconnects between what they need to learn for the test and what they need to know to care for their patients and prepare for lifelong learning.

스탠포드 대학 의과 대학 학생들은 교과 내용이 USMLE 시험에 도움되는 것과 일치하지 않는다는 우려를 표명했습니다. 이 우려와 일과 삶의 균형에 대한 도전은 가장 흔한 스트레스의 근원으로 연결되었습니다. 우리는 USMLE 1 단계에 대한 과도한 강조가 수련 선택 심사의 공통적 인 역할에 힘 입어 불필요하게 이 스트레스에 기여한다고 생각합니다.

Stanford medical students expressed concern that curricular content did not match what they were expected to know to perform well on the USMLE test; This concern and the challenges of work/life balance were tied as the most common sources of stress. We believe that undue emphasis on USMLE Step 1, driven by its common role in screening for residency selection, contributes unnecessarily to this stress.

USMLE 프로그램은 의학 교육의 변화와 병행하여 발전했지만, 특히 1 단계의 시험에 대한 과도한 강조는 무엇이 중요한가에 대한 학생들의 인식을 왜곡시킬 위험이 있습니다. 교과 과정 개혁은 의학 교육의 질적 향상에 중요한 부분으로, testable한 fact의 습득을 강조하는 것에서 벗어나야 한다. USMLE는 지식만을 평가하는 것에서 임상 적으로 관련된 문제를 해결하는 데 필요한 것을 평가하는 방향으로 발전했지만, USMLE의 진화에 대한 오인식은 바람직한 교육과정 변경을 방해 할 수 있습니다.

While the USMLE program has evolved in parallel with changes in medical education15 , overemphasis onthe exams, particularly on Step 1, risks distorting students’ perception of what is important. Curricular reform, a critical part of quality improvement in medical education, must move away from a focus on the acquisitionof testable facts. Although USMLE has evolved from testing knowledge to applying knowledge in solving clinically relevant problems, misperceptions about this evolution of USMLE could inhibit desirable curricular change. 

마지막으로, 어떤 사람들은 "1 단계 광기"라고 언급 한 것에 대한 교육적 및 재정적 결과가 있습니다. 우리는 학습이 가치 있다는 아이디어에 대해 반대하지 않습니다.

Finally, there are educational and fiscal consequences attendant to what some have referred to as “Step 1 madness.” We do not dispute the idea that study is valuable. And

의과 대학 학장은 대부분의 미국 의과 대학의 학생들은 USMLE 1 단계에서 풀 타임으로 공부하기 위해 4 주에서 9 주 (평균 6 주) 동안 격리합니다. 매년 약 2 만 명의 미국 의대 의과 대학 학생이 매년 시험에 응시하는 경우 그것을 공부하기 위해 6 주를 바친다. 공부에 전념 한 총 시간은 2,000 인년이다. 그것은 상당한 기회 비용입니다!

Medical school deans of education tell us that students at most U.S. medical schools sequester themselves for four to nine (average six) weeks to study full-time for USMLE Step 1. If each of the approximately 20,000 U.S. medical students who take the examination each year devotes six weeks to studying for it, the total amount of time dedicated to studying is more than 2,000 personyears. That is quite the opportunity cost!

명백히, 많은 학생들은 학교별 강의 또는 표준 의학 교과서로 공부하지 않습니다.

Apparently, many students do not study from their school-specific syllabi or standard medical textbooks;

가장 보편적으로 사용되는 자료는 USMLE World의 1 단계 qBank와 Pathoma 인 USMLE 1 단계 (Amazon에서 가장 많이 판매되는 의료 테스트 준비 텍스트)입니다. 아마존에서 이러한 자원의 현재 가격을 기준으로 미국의 모든 학생이 세 가지 자원을 모두 구입할 경우 총 비용이 750 만 달러를 초과 할 것으로 예상됩니다.

The three most commonly used resources as reported byour students are First Aid USMLE Step 1 (the top-selling medical test preparation text on Amazon), Step 1 qBank from USMLE World, and Pathoma. Based on current pricing of these resources on Amazon, if every student in the United States were to purchase all three resources, we estimate that the total cost would exceed $7.5 million. 

레지던트 선발에 대한 보다 합리적인 접근법

A More Rational Approach to Selecting Residency Applicants

레지던트 지원자 심사에서 USMLE 1 단계 점수에 대한 지나치게 의존하는 결과를 완화하기 위해 할 수있는 일은 무엇입니까? 우리는 시험을 포기해야한다고 생각하지 않습니다. 그럼에도 불구하고 우리는 USMLE 1 단계 점수가 계속해서 전공의 선발에서 면접대상자 선정에 있어 중요한 결정 요인이 되어야 한다고 생각하지 않습니다. 숫자를 필터로 사용하는 것이 많은 수의 응용 프로그램을 검사하는 편리한 방법이기는하지만 USMLE 1 단계 점수는 레지던트 교육 중 지원자의 잠재적 성과와 관련성이있는 속성의 totality를 반영하는 데에는 적절하지 못합니다.

What can be done to mitigate the unintended consequences of overreliance on USMLE Step 1 scores in screening residency applicants? We do not believe that the examinations need to be abandoned. Nonetheless, we do not believe that USMLE Step 1 scores should continue to be the major determining factor in the selection of graduating medical students for interview for graduate medical education positions. Although using numbers as a filter is a convenient way to screen large numbers of applications, USMLE Step 1 scores do not come close to reflecting the totality of attributes critically relevant to a candidate’s potential performance during residency training.

레지던트 지원자 선별에 보다 합리적인 접근 방법은 임상 추론, 환자 치료, 전문성 및 의료 팀 구성원으로서의 기능과 같은 다른 중요한 특성에 더 큰 관심을 기울이는 것입니다. 후보자에 대한 전체 론적 검토의 다른 구성 요소도 국가적으로 표준화되어야합니다. 여기에는 연구 경험과 성취, 지역 사회 참여, 리더십 역할, 독특한 개인적 특성 및 다양성이 포함될 수 있습니다.

A more rational approach to selecting among residency applicants would give greater attention to other important qualities, such as clinical reasoning, patient care, professionalism, and ability to function as a member of a health care team. Other components of a holistic review of candidates should be nationally normed as well; these might include research experience and accomplishments, community engagement, leadership roles, unique personal attributes, and diversity. 

임상 로테이션 동안의 성과와 임상 교수, 거주자, 다른 보건 전문가, 환자 및 동료로부터의 권고로부터 얻은 측정치는 기관 전반에 걸쳐 더 일반화되고 해석 가능해야합니다. 그리고 이 자료들은 다수의 지원자를 선별하기위한 예측 방정식에 사용할 수있는 형태로 디지털 형식으로 표현되어야합니다.

Measures derived from performance during clinical rotations and recommendations from clinical faculty, residents, other health professionals, patients, and peers must be more generalizable and interpretable across institutions, and they need to be represented digitally in a form that can be used in a prediction equation for screening large numbers of applicants.

우리는 또한 specialty training 후보자의 상대적인 장점을 평가할 때, 어떤 specialty에서의 성과를 예측하기 위해 경험적으로 제시 한 요소에 상당한 중요성을 부여해야 한다고 권고합니다. 이 성과에는 다음이 포함될 수 있습니다.

  • 필수 임상실습 중 평가,

  • 전문 분야별 서브인턴십 및 선택 과목 동안의 성과

  • 신청자가 수행 한 추가 특수 활동 (예 : 연구).

We further recommend that substantial weight in evaluating the relative merit of candidates for specialty training should be given to factors shown empirically to predict performance in the relevant specialty. This performance might include 

  • evaluation during the core clerkship, 

  • performance during specialty specific subinternships and electives, and 

  • any additional specialty-specific activities (e.g., research) that the applicant may have conducted.

 2016 Jan;91(1):12-5. doi: 10.1097/ACM.0000000000000855.

Plea to Reassess the Role of United States Medical Licensing Examination Step 1 Scores in Residency Selection.

Author information

C.G. Prober is senior associate dean for medical education and professor of pediatrics, Microbiology and Immunology, Stanford School of Medicine, Stanford, California. J.C. Kolars is senior associate dean for education and global initiatives, University of Michigan Medical School, Ann Arbor, Michigan. L.R. First is professor and chair, Department of Pediatrics, University of Vermont College of Medicine, Burlington, Vermont, and past chair, National Board of Medical Examiners, Philadelphia, Pennsylvania. D.E. Melnick is president and chief executive officer, National Board of Medical Examiners, Philadelphia, Pennsylvania.


The three-step United States Medical Licensing Examination (USMLE) was developed by the National Board of Medical Examiners and the Federation of State Medical Boards to provide medical licensing authorities a uniform evaluation system on which to base licensure. The test results appear to be a good measure of content knowledge and a reasonable predictor of performance on subsequent in-training and certification exams. Nonetheless, it is disconcerting that the test preoccupies so much of students' attention with attendant substantial costs (in time and money) and mental and emotional anguish. There is an increasingly pervasive practice of using the USMLE score, especially the Step 1 component, to screen applicants for residency. This is despite the fact that the test was not designed to be a primary determinant of the likelihood of success in residency. Further, relying on Step 1 scores to filter large numbers of applications has unintended consequences for students and undergraduate medical education curricula. There are many other factors likely to be equally or more predictable of performance during residency. The authors strongly recommend a move away from using test scores alone in the applicant screening process and toward a more holistic evaluation of the skills, attributes, and behaviors sought in future health care providers. They urge more rigorous study of the characteristics of students that predict success in residency, better assessment tools for competencies beyond those assessed by Step 1 that are relevant to success, and nationally comparable measures from those assessments that are easy to interpret and apply.

[Indexed for MEDLINE]

평가와 피드백의 불편한 동거(Perspect Med Educ, 2016)

The uneasy alliance of assessment and feedback

Christopher Watling1

평가와 피드백은 이상한 동거상황을 만들 수 있습니다. 그들의 목표는 때로는 엇갈린다. 예를 들어, 총괄 평가는 판단적이며, 학습자가 필요한 기준에 도달했는지 여부를 알려줍니다. Konopasek가 관찰하고있는 것처럼, "총괄 평가를 실시 할 때, 우리는 교육자educator라기보다 규제자regulator로 일하고있다"[1]. 한편, 피드백은 발달 적이며, 학습자의 발전을 촉진한다. 판단과 발전을 조화시키는 것은 매우 어려운 균형잡기이다.

Assessment and feedback can make strange bed fellows. Their goals sometimes lie at cross purposes. Summative assessment, for example, is judgmental, telling us whether or not learners have reached a necessary standard; as Konopasek observes, “when practicing summative assessment, we are acting far more as regulators than educators” [1]. Feedback, on the other hand, is developmental, facilitating learners’ progress. Reconciling judgement and development is a tenuous balancing act.

우수한 평가를 위한 공표 된 기준은 학습자가 평가 과정의 일부로 피드백을 받고 수행하는 데 참여해야한다는 것을 제안합니다. 특히 이러한 과정의 의도가 formative할 경우에는 더욱 그렇습니다. 피드백은 Norcini가 형성 평가의 '촉매 효과'라고 부르는 것, 즉 학습을 촉진 할 수있는 능력에 중요합니다. 또한 총괄 평가에는 학습자에 대한 정보가 담겨 있고, 이 정보는 정보는 미래 학습을 이끌 기 위해 활용할 수 있습니다. 어떻게 학습자가 평가에 포함된 피드백에 의미있게 참여하도록 장려 할 수 있을 것인가는 교육자에게 어려운 과제입니다.

Published criteria for good assessment suggest that learners should participate in receiving and acting on feedback as part of assessment processes, particularly when the intent of those processes is formative [2]. Feedback is critical to what Norcini calls the ‘catalytic effect’ of formative assessment – its capacity to drive learning forward [2]. And even summative assessment assessments contain a treasure trove of information about learners – information that could be harnessed to guide their future learning. Exactly how we can encourage learners to meaningfully engage with the feedback embedded in these assessments is a vexing challenge for educators.

해리슨과 동료는 3 개의 다른 국가의 3 가지 의대에서 형성 피드백에 대한 학생의 수용성의 탐구에서 3 가지 평가 방법을 사용하여이 문제를 임하고있다 [3]. 그들의 짜릿한 접근은 기관의 평가 문화가 학습자의 행동에 미치는 영향을 고려한다. 최근에는 성적보다는 학습을 중시하는 문화를 확립하는 것이 요구되고있다 [1] - 실패를 처벌하기보다는 개선을 위해 코칭하는 문화 [4] - 그런 문화가 어떻게 구성되어 있는지를 이해해야 한다.

Harrison and colleagues grapple with this problem in their exploration of students’ receptivity to formative feedback across three different medical schools, in three different countries, with three distinct approaches to assessment [3]. Their refreshing approach considers the influence of institutional assessment culture on learner behaviour. Recent calls for medical schools to establish cultures that emphasise learning over performance [1] – cultures where coaching for improvement supplants punishment for failure [4] – compel us to understand how such cultures are constituted.

해리슨의 작품은 사회 문화적 관점에서 문제를 찾기위한 의학 교육 연구의 성장 추세의 일부입니다. 사회 문화 학습 이론은 학습의 최전선에서 문화, 문맥, 시스템, 조직을 평가하는 관점을 제공한다. 연구원은 개별 학습자의 마음뿐만 아니라 학습자가 참여하는 전문가 커뮤니티와 학습자가 발달하고있는 제도적인 환경에서도 큰 이미지를 알아 내고자 한다. 평가 전략을 포함 교육적 접근은 우연이 아니다. 이것은 오히려 원칙적이면서도 실용적인 일련의 의도적인 교육적 선택이다. 어떤 학문 또는 전문직에 의해서 만들어진 교육적인 선택은 그들의 가치를 반영하고있다 [6]. 내 관점에서 평가 문화의 탐구는 그 프로그램 및 사례를 설명를 설명하는 것에서 멈추어서는 안된다. 우리는 그 사례가 대표하고 유지하는 가치와 그 가치가 학습자의 행동에 미치는 영향을 심도있게 조사해야 한다. 우리의 평가 문화가 반영하는 가치가 미래의 의사가 받아 들일 가치인지 여부를 물어야 한다.

Harrison’s work is part of a growing trend in medical education research toward exploring issues from a sociocultural point of view. Sociocultural learning theories offer a perspective that positions culture, context, system, and organization at the forefront of learning. They direct researchers to examine the big picture, looking not only at the minds of individual learners, but also at the professional communities those learners are joining, and at the institutional environments within which those learners are developing [5]. Pedagogical approaches, including assessment strategies, are not accidental; rather, they reflect a series of deliberate educational choices – some principled, some pragmatic. And the educational choices made by a discipline or profession, in turn, mirror its values [6]. In my view, any exploration of an assessment culture cannot stop at a description of its programs and practices. We should dig deeper, unearthing the values those practices represent and sustain, and the influence of those values on learners’ behaviour. We should ask whether the values our assessment culture reflects are the values we want our future doctors to embrace.

Harrison은 학습자와 그 맥락과의 상호 작용에 초점을 맞춘 렌즈를 제공하여 학생들의 선택과 독립성을 높이기 평가 문화가 학생들의 피드백 수용성을 향상 시킨다는 것을 보여주고있다 [3 ]. 이 발견은 참신하지만 우리를 놀라게 하지는 않는다. 의학 전문 문화는 독립성과 자율성을 중시하고있다 [7]. 학습자는 점차 감독과 지도의 필요성을 줄여 나가는 것을 목표로 한다. 따라서 이러한 핵심 전문적인 가치관에 부합하는 평가 전략은 바람직 학습자의 행동을 촉구 가능성이 높아집니다. 학습자가 '평가가 자립을 가능하게 한다'고 간주하면 더 쉽게 받아들일 것이.

Harrison offers a ‘focused lens’ on the interactions between learners and their contexts, showing that assessment cultures that afford greater student choice and independence reap the reward of greater student feedback receptivity [3]. This finding is novel, but should not surprise us. Medicine’s professional culture values independence and autonomy [7]. Learners aspire to gradually shed their need for supervision and guidance. Assessment strategies that align with these core professional values may therefore be more likely to encourage desirable learner behaviour. When learners can see assessment as enabling their independence, they may buy in more readily.

해리슨은 또한 학생들이 신빙성이 부족하다고 생각하는 의견을 무시하고, 의견의 해석과 사용의 안정성 중심적인 위치에 대한 초기 연구를 강화하고있다 [8]. 그러나 신빙성credibility 자체는 문화와 문맥 적으로 정의되어있다 [9]. 의학의 신뢰성은 실제 임상 연구로 이어지는 경향이 있습니다. 우수한 임상 신뢰할 수있는 소스이며, 실제 사례가 신뢰할 수있는 위치입니다. Harrison은 총괄적인 평가 문화가 학습자에 대한 신뢰성 개념을 왜곡 될 수 있다고 경고하고있다. 학습자는 OSCE를 준비할 때, 실제 임상 환경에서의 피드백을 종종 무시하는데, 그 이유는 실제 임상 환경에서의 피드백이 합격에 필요한 성적을 낸다는 신뢰가 없기 때문이다 [3] - 이것은 평가의 의도하지 않은 영향을 엿볼 수있는 직업의 가치관에 맞지 않는 문화의 사례이다.

Harrison further suggests that students ignore feedback they deem to lack credibility [3], reinforcing earlier research on the central place of credibility in the interpretation and use of feedback [8]. Credibility itself, however, is culturally and contextually defined [9]. Credibility in medicine tends to link to authentic clinical work – excellent clinicians are credible sources of feedback, and real cases are credible venues. Harrison cautions that a summative assessment culture may distort notions of credibility for learners. The finding that learners often ignored feedback from real clinical settings as they prepared for OSCEs – perceiving that it was not credible in the context of producing the performance required to pass the exam [3] – provides a disconcerting glimpse into the unintended influence of an assessment culture that fails to align with the profession’s values.

피드백에 있어서 총괄 평가는 넘어야 할 산이다. 전문가의 성장을 위협하는, 바람직하지 않은, 테스트에 초점을 맞춘 학습 전략을 유도하기 때문에, '총괄 평가 문화'를 부끄러워 하기 쉽지만, 학습자와 교육자는 총괄 평가 필요 성을 인식하고있다. 의학에서 총괄 평가의 문화는 직업과 사회와의 협정을 반영하고있다. 총괄 평가 문화는 안전하고 효과적인 치료를 제공하는 의무의 핵심 전문적인 가치를지지하고 있습니다. 

Summative assessment represents a particular challenge for feedback. Tempting as it may be to bemoan the ‘summative assessment culture’ as promoting undesirable, test-focused learning strategies that suffocate professional growth, learners and educators alike recognise the need for summative assessment. Medicine’s culture of summative assessment reflects the profession’s pact with society. The summative assessment culture supports a core professional value – the duty to provide safe, competent care. 

코칭이 번영 할 수 있는 문화로 음악과 스포츠를 동경 해보고 있을지도 모르기 때문에 의학의 사회적 책임 의무는 대화를 바꿉니다. 스포츠 코치와 음악 교사는 학생에 책임을진다. 의학 교사는 학생뿐만 아니라 환자와 지역 사회에 대해서도 책임을 진다. 종합 평가는 의학의 학습 문화에서 지나치게 강조되는 면이 있지만, 완전히 제거할 수는 없다. 그러나 의학이 총괄평가에 의존하는 것은 피드백에도 영향을 미칩니다. Harrison의 연구에서 학생들은 총괄평가 후에 피드백을 얻으려하지 않았는데, 이는 기존 연구에서 총괄평가에서는 피드백을 수용하고 활용할 가능성이 낮아진 것을 보여준 것과 같다. 문제는 총괄평가 자체가 아니라, 그것이 학생들에게 지배적 인 학습 문화로 자리잡는 것이다.

Illuminating as it may be to look longingly to music or sports as cultures in which coaching can thrive, medicine’s social accountability mandate changes the conversation. Sports coaches and music teachers are accountable to their students. Medical teachers are accountable to their students, but also to their patients and to their communities. While summative assessment has likely been over-emphasised in medicine’s learning culture, it cannot be lifted out completely. But medicine’s reliance on summative assessment has consequences for feedback. Students in Harrison’s study did not seek feedback after summative assessment, reinforcing his earlier work demonstrating that the uptake and use of feedback after assessment was undermined when the assessment was summative [3, 10]. The problem is not with summative assessment itself, but with summative assessment as the dominant learning culture for students.

총괄평가를 두 배로 늘려서 의미있는 피드백을 일관되게 형성할 것을 기대하는 것은 지나친 것이다. 그러나 학생들은 종종 그렇게 의도하지 않았음에도, 어떤 평가를 총괄평가로 인식합니다. 평가가 학습을 shape할 수 있으려면, 모든 player가 "무엇을하고 있는지, 왜 그것을하고 있는지, 그리고 왜 이렇게하는지"를 이해할 필요가 있습니다 [ 11]. 모든 선수가 형성적 목적으로 시행되는 평가를 발달적이고, 학습에 중점을 두는 것으로 명확히 필요가 있다. 그리고 아마도 형성적인 평가는 학습자가 결과의 두려움없이 약점을 밝힐 수있는 안전한 코칭의 기회를 창출하기 위해 때로는 '저부담'이 아닌 '무부담'이어야 한다.

Perhaps it is expecting too much for truly summative assessment to double as a consistent generator of meaningful feedback. But students often perceive assessment as summative, even when it is not intended that way. For a program of assessment to meet its potential to shape learning, all the players need to understand ‘what they are doing, why they are doing it, and why they are doing it this way’ [11]. Assessment intended as formative needs to be clearly understood by all players as developmental and learning-focused. And perhaps formative assessment, at times, needs to be ‘no-stakes’ as opposed to ‘low-stakes,’ in order to create safe opportunities for coaching within which learners can expose their weaknesses without fear of consequences.

해리슨 등은 피드백을 수용하는 문화로의 점진적인 발전을 요구하는 것으로 결론 짓고있다 [3] - 그러나 이것은 악마적인 어려운 문제이다. 이러한 목표는 유력한 용의자 - 교사를 훈련하고 더 나은 피드백을 제공하고, 학생들은 더 나은 수용자가 되도록 하려는 - 를 벗어나야만 가능할지도 모른다. 대신, 기관 수준에서 교육 과정 결정에 초점을 맞추고, 이러한 결정이 학습자에게 미칠 하류의 영향을 강조한다. 개인에 대해서 덜 생각하고, 문화에 대해 더 생각한다면, 새로운 기회가 생기고, 평가와 피드백이 학습의 편안한 파트너 역할을 할 것이다.

Harrison and colleagues conclude by calling for the gradual development of a culture of receptivity to feedback [3]– a task of diabolical difficulty. Where they offer fresh hope that this goal may be achievable is in their turn away from the usual suspects – training teachers to be better givers of feedback and students to be better receivers. Instead, they focus on curricular decisions made at the institutional level, and highlight the downstream effects these decisions have on learners. In thinking less about individuals and more about culture, new opportunities emerge to enable assessment and feedback to take their place as comfortable partners in learning.

 2016 Oct;5(5):262-4. doi: 10.1007/s40037-016-0300-6.

The uneasy alliance of assessment and feedback.

Author information

Office of Postgraduate Medical Education, Schulich School of Medicine and Dentistry Western University, N6A 5C1, London, Ontario, Canada. chris.watling@schulich.uwo.ca.











평가에 대해 다시 생각해보기: 환자안전, 학생석차, 피드백의 균형(Acad Med, 2017)

Assessment Reconsidered: Finding the Balance Between Patient Safety, Student Ranking, and Feedback for Improved Learning

내 컴퓨터에서 올려다 보니 나는 인턴 중 한 명인 Tina (본명이 아닌)가 내 출입구 옆에 서 있었다. 티나의 눈은 피를 흘렸고 마치 울음을 터뜨린 것처럼 보였다. "들어와."내가 말했다. "뭔가 잘못 됐니?"

As I looked up from my computer, I noticed that Tina (not her real name), one of our interns, was standing by my doorway. Tina’s eyes were bloodshot, and it looked as though she had been crying. “Come on in,” I said. “Is there something wrong?”

"나에 대한 당신의 평가를 읽었습니다. 나는 그런 나쁜 평가를 한번도 받아 본 적이 없다. "

“I just read my evaluation from you, from our shift last week. I’ve never had such a bad evaluation before.”

"하지만 나쁜 평가는 아니 었습니다." "좋은 평가였습니다. 나는 이해하지 못한다. 당신은 모든 사건을 잘 관리했습니다. 모든 역량에 대해 '기대를 충족 시키거나 기대치를 초과합니다'라고 체크했다. 왜 그것이 나쁜 평가라고 생각하니? "

“But it wasn’t a bad evaluation,” I said. “It was a good evaluation. I don’t understand. You managed all of your cases well. I checked the boxes that said ‘meets expectations or exceeds expectations’ for every competency. Why do you think it was a bad evaluation?”

"코멘트에 의사 소통 능력을 향상시켜야한다고 되어있었다. 아무도 그 전에 저를 비난하지 않았습니다. "

“In the comments it says that I need to improve my communication skills. No one has ever accused me of that before.”

"티나, 모든 사람들이 개선 될 수있는 분야와 영역을 파악하려고 노력합니다." "우리 모두 의사 소통 기술을 향상시킬 수 있습니다. 나는 발진이 났던 당신이 돌보던 여자가 의학적 조언에 반하여 떠났다고 언급했다. 그녀는 매우 어려운 환자였습니다. 제 생각에 당신은 아마도 체중 감량과 위생 불량에 대한 당신의 제안이 당신이 의도하지 않은 방식으로 그 환자에게 전해졌음을 깨닫지 못했을 것입니다. 나는 그녀가 판단되고 낙인 찍힌 기분을 받았을 것이라고 느꼈고, 그것이 아마 화를 낸 이유였을 것이다. 나는 당신이 그 여자환자 같은 사람들과 민감한 문제에 대해 대화하는 법을 배우는 것이 좋을 것이라 생각했다. 그러나 당신은 아무 잘못도 없습니다. 우리는 이미 지난번에 이것에 관해 이야기했다. 나는 당신에게 상기시키기 위해 내 의견에 이것을 썼다. "

“Tina, I try to identify areas of strength and areas where there could be improvement for everyone,” I said. “We can all improve our communication skills. I mentioned it because of the woman you were managing who had the rash and left against medical advice. She was a very difficult patient; I think you probably didn’t realize that some of your suggestions about her need to lose weight and to address her poor hygiene came across in a way that you didn’t intend. I sense that she felt judged and stigmatized, and that was why she stormed out. I wanted to encourage you to work on how to communicate about sensitive issues with patients like that lady. But you did nothing wrong. We talked about this at the end of the shift. I wrote this in my comments to remind you.”

"하지만 그 여자는 차에서 살고 있었고 옴을 가지고있었습니다. 옴은 나쁜 위생의 결과 였으므로 매일 목욕을해야합니다. 그녀는 피난처에 가서 체중을 줄여야합니다. 그녀의 체중 문제로 인해 당뇨와 고혈압이 초래되었을 것입니다. 나는이 모든 것을 그녀에게 내가 할 수있는 한 분명하게 설명했는데 당신은 내게 의사 소통 능력을 향상시켜야한다고 썼습니다. 그 성명서는 프로그램 디렉터가 평가할 때와 펠로우십이 지원할 때 내 기록에 남게 될 것입니다. "

“But the woman was living in her car and had scabies. The scabies were the result of poor hygiene, so she should bathe every day. She has to go to a shelter and lose weight. Her weight problem probably has led to her diabetes and high blood pressure. I explained all this to her as clearly as I could. Yet you wrote that I need to improve my communication skills; that statement will be in my record when I get evaluated by the program director and when I apply for a fellowship.”

"티나, 나는 내 의견이 내가 의도했던 방식대로 보일 것이라고 확신합니다. 의사는 의사 소통 방법을 알고 있어야합니다. 우리는 환자의 삶과 도전 과제를 이해하고 신뢰감과 신뢰를 구축하는 방법을 이해해야합니다. 커뮤니케이션은 단순히 정보를 전달하는 것이 아닙니다. 내가 의견을 적어 두지 않았다면, 내가 당신을 감독하고, 이정표와 역량으로 당신의 진보에 대한 직장 기반 평가를하는 기록이 없을 것입니다. 우리는 모든 사람을 위해이를 문서화해야합니다. 이건 좋은 평가입니다. 나는 프로그램 디렉터와 이야기하고 내 의견을 분명히 할 거에요"라고 말했다.

“Tina, I’m sure my comments will be viewed in the way they were intended: as feedback for you. We physicians have to be aware of how we communicate. We must understand the lives and challenges of our patients and how to establish rapport and trust. Communication is not just about transfer of information. If I didn’t write up comments, there would be no record that I was supervising you and doing a workplace-based assessment of your progress with the milestones and competencies. We need to document that for everyone. Look, this is a fine evaluation. I’ll speak with the program director and clarify my comments.”

티나는 그녀의 눈을 문지르고, 나를 신뢰할 수 없다는 눈초리로 보았다. 그리고 나서 떠났다. 나는 그녀와 다른 레지던트들을 평가하기 위해 작성한 양식을 되돌아보고 티나의 두려움이 정당화 될 수 있는지, 그리고 내 의견에 따라 부정적으로 표시 될지 궁금해했다. Tina의 대화 기술을 돕는 의도로 의견이 제시되었지만 의도하지 않은 결과가 발생할 수 있다고 생각했습니다.

Tina rubbed her eyes, took one more distrustful look at me, and then left. I looked back at the forms I had filled out assessing her and other residents and wondered whether Tina’s fears could be justified and whether she would be labeled in a negative way based on my comments. Even though my feedback had been given with the intent of helping Tina with her communication skills, I worried that there could be unintended consequences.

Goals and Challenges of Assessment

평가는 학생의 개선을 돕기 위해서도 필요하지만, 심각한 결함을 가진 학생을 파악하기 위해서, 또는 레지던트, 펠로우, 또는 독립적으로 고용된 의사를 선발하기 위해서도 필요합니다. 교수와 학생 사이의 힘의 차이로 인해 교수와 학생 사이의 신뢰가 위험에 빠질 수 있는데, 이런 상황에서 평가는 이러한 모순되는 목표를 어떻게 충족시킬 수 있을 것인가?

Assessment is needed to help students improve, but it is also necessary to identify students with significant deficiencies and to assist in the sorting of students for selection to residencies, fellowships, or independent employment as physicians. How can assessment meet these conflicting goals when it seems to depend on a trust between faculty member and student that could be endangered by the power differential between them?

Van der Vleuten 1은 평가에서 고려해야 할 5 가지 기준, 즉 신뢰성, 타당성, 교육적 효과, 허용성 및 비용을 설명하고있다. 내가 티나와 하던 WBA는 잠재적으로 교육적 영향이 있지만, 높은 비용 (교원 시간)이 소모되며, 단일 평가로의 효율성과 신뢰성이 상대적으로 낮다. 그리고 적어도 티나의 관점에서 내 평가의 일부는 받아 들일 수 없는 것이었다. 내러티브 코멘트는 내가 표시한 등급을 이해하는 데 도움이지만, 미래에 어떤 문제가 생길지 예측하는 데 독립적 인 가치는 별로 없을지도 모른다.

Van der Vleuten 1 has described five criteria to be considered in assessment: reliability, validity, educational impact, acceptability, and cost. The workplace-based assessment that I had been doing with Tina, while potentially having educational impact, incurred high cost (of faculty time) and had relatively low validity and reliability as a single assessment. And, at least from Tina’s point of view, part of my assessment was not acceptable. The narrative comments, while useful to expand upon the ratings I marked, might not have much independent value as a predictor of future problems.

이번 호에서 하라라 등 2)은 훈련 평가 보고서 (ITER)의 질적 코멘트를 체계적으로 검토하여 내러티브 코멘트가 다른 유형의 정량적 점수를 기반으로 수행능력 평가를 지지함을 보여주었지만, 의사 결정이나 함의를 끄집어내는 것에 대한 근거는 부족했다. ITER 점수로 최종 평가까지 extrapolate 할 수 있을지도 모르지만, 내러티브 코멘트의 제한적인 타당성에 대한 우려는 고려할 필요가있다.

In this issue of Academic Medicine, Hatala et al,2 in their systematic review of qualitative comments from in-training evaluation reports (ITERs), found that narrative comments supported assessment of performance based on other types of quantitative scoring, but that evidence was lacking for making decisions or drawing implications. Whether one could extrapolate from the ITER to the end-of-shift evaluation form that I filled out is not clear, but the concerns about the limited validity of narrative comments are important to consider.

Kennedy 등 3는 임상 환경의 관리자가 지식과 ​​기술의 차원 한계 식별, 진실성, 그리고 양심 성 차원을 포함한 독립적 인 임상 연구를위한 학생의 신뢰성(trustworthiness)을 평가할 필요가 있다고 시사하고있다. 평가를 할 때 이러한 신뢰성 차원에 대한 설명을 포함하는 것이 유용한 수 있는데, 왜냐하면 이러한 코멘트도 관계의 일부이며, '위임 할 수있는 전문적인 활동 (EPA)'의 평가에 통합 할 수 있기 때문이다.

Kennedy et al 3 have suggested that supervisors in the clinical environment should make an assessment about the trustworthiness of their students for independent clinical work that involves the dimensions of knowledge and skills, discernment of limitations, truthfulness, and conscientiousness. In making assessments, it may be useful to include comments about these trustworthiness dimensions in narrative comments, since they appear to be a part of the supervisory relationship and can be incorporated into the assessment of entrustable professional activities (EPAs).

엡스타인 4는 학생들이 초보자에서 전문가로 이행함에 따라 의학적 능력의 발달 모델의 일부로 사용을 설명하는 평가의 개요를 열거했다 5. 임상 감독의 일환으로 평가; 특정 임상 실전 직접 관찰 및 비디오 리뷰; 임상 시뮬레이션. 동료, 간호사, 기타 따른 다양한 평가. 포트폴리오. 그는 다음과 같이 권고했다.

Epstein 4 provided an overview of assessment that described its use as part of the developmental model of competence in medical education as the student moves from novice to expert.5 He discussed common assessment methods such as 

written examinations; 

assessment as part of supervision by clinicians; 

direct observation and video review of specific clinical encounters; 

clinical simulations; 

multisource assessments by peers, nurses, and others; and 

portfolios. He recommended that the

여러가지 방법을 사용하여 자주 건설적인 피드백을 제공함으로써 능력의 다양한 영역을 통합적이고 일관성있고, 종단적으로 평가해야합니다.

various domains of competence should be assessed in an integrated, coherent, and longitudinal fashion with the use of multiple methods and provision of frequent and constructive feedback.

초보자에서 전문가에 여행을 위해, 엡스타인은 전문 지식expertise의 개발에 특히 초점을 맞춘이 필요하며, 교사는 학습자에게 평가와 피드백을 제공해야 한다고 말했다.

For the journey from novice to expert, Epstein said that a specific focus on the development of expertise is needed, and this requires assessment and feedback from teachers to learners.

에릭슨 6은 전문 지식을 개발하기위한 의도적인 연습deliberate practice으로 이어지는 성과에 대한 피드백을 제공하여 교사가 학생을 자기주도적 학습자가 되도록 도와주는 방법을 설명했습니다. 따라서 학생의 학습 향상에있어서 평가의 역할은 중요하다. 그러나 다음에 설명 된대로 여러가지 평가 목적이 있으며, 이들 사이에 불일치가 있음을 인식하는 것이 중요합니다.

Ericsson 6 has described how teachers help students become self-directed learners by providing the feedback about performance that leads to deliberate practice to develop expertise. Thus, the role of assessment in the improvement of students’ learning is critical. However, it is important to recognize that there are several purposes for assessment, mentioned below, and that these can come into conflict.

Van der Vleuten들은 최근 평가 학습 평가 학습 평가 학습으로 평가 세 가지 범주로 분류하는 평가 모델을 요약했다.

Van der Vleuten et al 7 recently summarized a model of assessment that divides assessment into three categories: assessment for learning, assessment of learning, and assessment as learning.

학습을 위한 평가는 종종 형성 평가로 불린다.

In assessment for learning, often referred to as formative assessment, students

(학습을 위한 평가에서) 학생들은 메타인지 전략에 초점을 맞춘 과정을 밟습니다 ... 그들은 자신의 생각을 생각하려는 노력이 지지를 받게 됩니다 ... 퍼포먼스와 현재의 이해와 명확하게 정의 된 성공 기준과의 관계를 이해해야 하며, 자신의 학습을 발전시키고 시작하는 주체가 되는 것입니다.

are engaged in a process that focuses on metacognitive strategies … are supported in their efforts to think about their own thinking … understand the relationship between their performance, their current understanding, and clearly defined success criteria, and are positioned as the agent improving and initiating their own learning.

Konopasek 등 8)은 최근 의학 교육의 형성 평가의 중요성과 과제에 대해 말했다.

Konopasek et al 8 recently described the importance and challenges of the formative assessment process in medical education.

학생들은 개인 성과와 경쟁 우위에 초점을 맞춘 문화를 거쳐 의대에 오게 된다. 학생들이 건설적인 피드백을 받아 들이거나 믿을 준비가되어 있지 않을지도 모른다. 그리고 학생들은 긍정적의견만으로는 경쟁에서 불이익을 받는다고 믿고 있을 수도 있다.

Students often come to medical school from a culture that focuses on individual achievement and competitive advantage, and they may not be prepared to accept constructive feedback or to trust that anything but positive feedback will somehow put them at a competitive disadvantage.

"형성을 중시하는 평가 시스템은 개선을 포함하고 지원하는 문화에서만 번창 수있다"고 지적하고있다. 그들은 교수개발, 학습자 개발, 종단 학문적인 조언과 지도, 역량 개발의 문서화의 필요성을 시사한다.

They go on to note that “an assessment system that emphasizes the formative can only thrive in a culture that embraces and supports improvement.” They suggest the need for faculty development, learner development, longitudinal academic advising and coaching, and documentation of developing competence.

학습의 평가는 총괄 평가라고도 불리며, 학생의 역량에 대한 현재의 진보에 대한 판단을 강조한다. 형성평가와 촐괄평가는 별개의 목표로 간주되는 경우가 많은데, 중복되는 영역도 많다. 예를 들어, 형성 평가에서 중대한 결함을 발견하면 remediation이 필요할 수도 있고, 심지어는 교육 프로그램에서 dismiss해야 할 수도 있다. 뿐만 아니라 종합적인 평가는 학생의 학습을 촉진할 수 있는 기억에 남는 경험을 제공 할지도 모릅니다. Turner 등은 9 소아과의 이정표와 능력을 이용한 총괄 평가를 설명하고있다. 그들은 이정표의 사용을 통해 훈련 된 교사가 인턴의 진보를 본과 4학년의 그것과 구별 할 수있는 것을 보여줍니다. 흥미롭게도, 인턴 및 학생 사이에는 프로페셔널리즘 이정표를 달성하는데있어서의 차이는 거의 없었으며, 이것은 현재 소아과의 이정표가 전문성을 구분하는discriminating 능력에 대해 의문을 제기하고 있습니다.

Assessment of learning, often referred to as summative assessment, emphasizes a judgment about a student’s current progress toward competency. While formative and summative assessments are often considered as separate goals of assessment systems, there is often overlap. For example, if an assessment meant to be formative detects serious deficiencies, it may lead to a judgment about the need for remediation or even dismissal from the training program. Similarly, a summative assessment may provide memorable experiences that motivate learning for the student. Turner et al 9 in this issue describe summative assessment using pediatrics milestones and competencies. They demonstrate that through the use of milestones, trained faculty were able to distinguish the progress of interns from that of fourth-year students. Interestingly, there was little difference between interns and students in their attainment of the professionalism milestone, raising questions about the discriminating ability of the current pediatrics milestones for professionalism.

Van der Vleuten 모델의 세 번째 요소 인 학습으로서의 평가평가 시스템에서 교육 과정의 경험과 교육 프로그램의 목표를 되돌아 보는 것으로서, 평가 과정이 프로그램 및 커리큘럼으로 갖는 의미programmatic and curricular implication가 포함 있습니다. 학습으로서의 평가는 심사 위원과 학생 사이의 관계의 영향 (위탁 과정에서 생기는 것 등)을 통합하여 고려할 수 있습니다.

The third part of Van der Vleuten’s model, assessment as learning, incorporates the programmatic and curricular implications of the assessment process that might involve looking back from the assessment system to the curricular experiences and the goals of the educational program. Assessment as learning might also consider incorporating the effects of relationships between assessors and students, such as what occurs in the entrustment process.

Lomis 등 10)과 Brown (브라운) 11)는 의대생 평가의 틀을 Van der Vleuten 모델의 렌즈를 통해 볼 수 있다고 설명하고있다. 

In this issue, Lomis et al 10 and Brown et al 11 describe a framework for assessment of medical students that may be viewed through the lens of the Van der Vleuten model. Beginning with a description of the development of EPAs for graduating medical students, 

  • Lomis et al go on to describe the concept of entrustment, the assessment system, the curriculum, and faculty development. 

  • Brown et al further describe how summative entrustment decisions about core EPAs can be made by a trained group incorporating longitudinal workplace-based assessments that require evidence that students are truthful, conscientious, and know their limits, which are categories derived from the work of Kennedy et al.3 

  • Brown et al note that the success of the assessment of these Core EPAs for Entering Residency will be dependent on the alignment of the curriculum, the assessment system, the goals of the program, and the development of faculty, and will involve formative and summative assessments and program evaluation.

이러한 평가의 제안은 의미가 있지만, 의대생, 전공의, 전임의 등의 순위와 선발을 위한 총괄적인 사용 및 필요한 피드백을 제공하기위한 형성적인 사용과 사이에서의 갈등을 해소하지는 못했다. '학습의 평가'의 결과는 학습 동기, 학습시간 활용의 우선순위, 교수와의 관계와 신뢰에 영향을 미칩니다. 또한, 평가 시스템은 학습에 크게 영향을주기 때문에 학습 내용과 과정을 의학 교육 시스템의 목표와 완전히 일치시킬 필요가 있습니다. 그렇지 않다면 시스템이 생성하는 의사는 적절한 교육을 받은 것이 아닐 수 있습니다.

While these suggestions for assessment make sense, they do not adequately address the conflict in the assessment system between its summative use for the ranking and selection of students for medical school, residency, fellowship, and employment, and its formative use to provide feedback needed for learning. The consequences of the assessment of learning influence the motivation of students about what to learn and how to prioritize their time on learning as well as their relationships with and trust of faculty supervisors. In addition, because the assessment system heavily influences learning, the content and processes of assessment of learning must be well aligned with the goals of the medical education system, or the physicians whom that system produces may not be properly trained to provide high-quality care.

다섯 가지 권고

Five Suggestions

다음의 다섯 가지를 권고한다.

These concerns lead me to make the following five suggestions.

의학 교육의 목적은 충분히 명확하게 표현되어 학습의 평가assessment of learning와 일치해야한다. 학습은 연속적이며, 그 최종 목표에 대한 전반적인 비전이 필요하기 때문에, 의학 교육의 목적은 교육의 다음 단계를 위해 학생을 준비하는 것이라고 주장하는 것만으로는 불 충분하다. 또한 교육의 후속 단계의 준비는 중요하지만, 그 자체가 목표가 될 수는 없는데, 교육의 각 단계 이후에 학생들이 취할 수 있는 방향성이 다양하기 때문이다. 이러한 접근 방식은 보건 시스템의 요구와 인구의 건강 개선의 요구를 충족 교육 시스템의 설계에 대한 책임을 포기하는 것과 같다.

The purpose of medical education must be well articulated and aligned with the assessment of learning. It is not sufficient to assert that the purpose of medical education is to prepare the student for the next stage of education, because learning is a continuum and there must be an overall vision for its ultimate goals. Also, preparation for subsequent stages in education is important but insufficient as a goal because of the many directions that students can take after each stage in their education. Such an approach abdicates responsibility for the design of the education system to meet the needs of the health delivery system and the population needs of improving health.

의학 교육의 목적이 명확하게 합의되지 않으면 점점 늘어나는 보건 의료 콘텐츠 분야의 우선 순위를 정하는 것이 어렵습니다. 케이트 (12)는 위탁 결정의 평가를 환자 안전이라는 의료의 목적과 결부시킨다. 이렇게 하여 평가는 안전하고 높은 품질 관리를 위한 환자에 대한 교원의 책임과 연결된다. Sklar와 Lee 13 이전에 의학 교육의 목적은 품질 관리이며 IOM에 의해 정의된 의료 퀄리티의 6 가지 특성이 커리큘럼 개발과 우선 순위를 정한다 -  안전하고 적절하고 효과적이며 효율적이고 공정하고 환자 중심인 것.

Without a clear consensus of the purpose of medical education, it becomes difficult to prioritize the ever-increasing content areas of health and health care. In his Invited Commentary in this issue, ten Cate 12 connects the assessment of entrustment decisions to the purpose of medical care, which he identifies as patient safety. In this way, assessment becomes intertwined with faculty responsibilities to the patient for safe and high-quality care. Sklar and Lee 13 have previously suggested that the purpose of medical education is high-quality care and used the six attributes of quality identified by the Institute of Medicine 14— safe, timely, effective, efficient, equitable, and patient-centered—to help guide curriculum development and prioritization.

의학 교육의 목적이 무엇이든간에, 평가 목표와 일반적인 합의와 조정이 필요합니다. 의학 교육의 중요한 목적이 있어야 평가 내용을 정의하는 전문가위원회는 편견과 경험을 반영하는 주제와 개념을 특정하는 경향이 있으며, 이것은 타인의 편견과 경험과 충돌할 수 있다. 그 결과 명확한 비전보다는 오히려 영향력이나 파워에 따라 평가 내용이 정해질 수 있고, 건강 전문가에게 반드시 필요하지 않은 지식과 기술이 시험에 포함될 수 있습니다. 건강 관리직의 목표가 변화함에 따라 타당성과 신뢰성에 대해 평가 도구의 지속적인 조사가 필요하다. 프로그램의 인정, 역량 평가, 교육자, 연구자, 의료 제공자 및 일반인 대표자 등이 모여서 목표, 핵심 콘텐츠 및 기술을 정기적으로 검토에 참여해야합니다.

Whatever purpose for medical education one chooses, there must be a general agreement and alignment with the assessment goals. Without an overarching purpose for medical education, committees of experts brought together to define assessment content will tend to identify those topics and concepts that reflect their biases and experience, and may come into conflict with others who have different biases and experiences, leading to decisions based on influence and power rather than a clear vision. This may result in the inclusion of testing materials that could be peripheral to the core of knowledge and skills needed for health professionals. Assessment tools should be continuously examined for validity and reliability as the goals for the health professions change. A process that brings together accreditors of programs, assessors of competence, educators, researchers, practicing providers, and representatives of the public should be involved in reviewing goals, core content, and skills on a regular basis.

학습자의 선발과 고용 및 인증 및 권한 부여 선택에 미치는 학습의 평가 (총괄 평가)의 효과가 인정되어 관리되어야한다. 이 때 총괄 평가가 교육 과정에 매우 중요한 학습의 평가 (형성 평가)에 악영향을 미치지 않도록해야합니다.

The effects of the assessment of learning (summative assessment) on the learners’ selection for education and employment, and for certification and licensure, should be acknowledged and managed. This should be done so that summative assessment does not adversely affect the assessment for learning (formative assessment) that is so critical for the education process.

이것은 말하기는 쉽지만 실제로 실행하기는 어렵다. 왜냐하면 수용가능한 교육 정원을 초과하는 학생을 평가하고 필터링하여 교육 프로그램을 지원해야 한다는 평가 시스템에 대한 압력이 있기 때문이다. 평가 시스템은 평가 과정에서 취약점과 학생과 교직원 사이의 권력의 불균형 때문에 실수로 학생 및 레지던트를 학대할 가능성이있다. 학습의 평가 지침은 양질의 환자 치료를 위해 공정성, 타당성, 신뢰성, 교수와 학생의 실제 수직 관계, 위탁 능력의 실증 역량의 통합을 강조해야합니다. 평가 과정에 투명성과 책임이 필요합니다.

This is more easily said than done, because there are pressures on the assessment system to help training programs to rank and filter students, who outnumber the available training positions. The assessment system can inadvertently facilitate mistreatment of students and residents because of their vulnerability in the assessment process and the imbalance of power between them and faculty. The guiding principles of assessment of learning should emphasize 

  • fairness, 

  • validity, 

  • reliability, 

  • authentic longitudinal relationships between faculty and students, 

  • entrustment, 

  • demonstration of competence, and 

  • integration of competencies

... —all in the service of quality patient care. There should be transparency and accountability for the assessment processes.

학습을 위한 평가 (형성 평가)는 평가 프로그램의 기초가되어야한다. 그런 평가는 

  • 여러 소스로부터의 피드백, 

  • 자기주도학습의 강조, 

  • 교수와 학생 간의 신뢰와 장기적인 관계의 발전, 

  • 승진 및 기타 구조적 결정에 영향을 주기 위하여 형성 평가가 사용되는 시기

...에 대한 명확한 지침이 포함되어야한다. 평가 프로세스의 신뢰를 쌓는다면, 학생이 건설적인 피드백을 잘못 해석할 가능성이 낮아집니다. 앞에서 Tina의 사례와 같이, 비판적인 코멘트가 자신의 미래에 악영향을 미칠 수 있다고 생각 학생이 그것을 포트폴리오에 표시하지 않으려는 것은 완전히 이해할 수 있다. 이런 코멘트가 형성적인 목적이 있다면 , 즉시 주의를 필요로하는 심각한 문제를 제시하지 않는 한 그들은 총괄 리뷰에서 보호shielded되어야한다.

Assessment for learning (formative assessment) should be the foundation of the assessment program. Such assessment should include multiple sources of feedback, emphasis on self-directed learning, development of trusting and longitudinal relationships between faculty and students, and clear guidelines about when formative assessment may be used to influence promotion and other structural decisions. By emphasizing trust in the assessment process, it is less likely that students will be at risk for misinterpretation of a constructive comment. It is perfectly understandable that a student who feared that a critical comment on an assessment could adversely affect future training opportunities would not want the comment to appear in a portfolio, as in the case of Tina presented earlier. If such comments are meant to be formative, they should be shielded from summative review unless they suggest an egregious problem requiring immediate attention.

평가는 전반적인 교육 프로그램의 개발에 중요한 역할을하는 것으로 인식되어야한다. 평가는 학습 환경, 커리큘럼 개발, 학습자와 교사와의 관계, 제도 문화에 큰 영향을 미칩니다. 교육 평가의 전문 지식은 중요하지만 평가는 고립되어 실행되어야하지 않습니다. 그것은 프로그램 목표 및 목적과 통합되어 정렬되어야한다.

Assessment should be recognized for the critical role it has in overall educational program development. Assessment has major effects on the learning environment, curriculum development, relationships between learners and teachers, and institutional culture. While expertise in assessment in education is important, assessment should not occur in isolation; it must be integrated and aligned with programmatic goals and objectives.

평가와 관련된 교수개발은 직장에서의 평가를 많이 제공하는 교원 특히 임상가 교육자를 위한 핵심 역량이 되어야 합니다.  Favreau 등 15)은 EPA의 평가의 일환으로 교원 양성을위한 핵심 기술을 소개하고있다. 그들은 교원의 개발이 실천 공동체를 통한... 

(1) Authentic 설정 (직장 기반 평가)에서 관측 기술 교육 

(2) 피드백과 코칭 스킬 

(3) 자체 평가와 성찰 기술 

(4) 피어-지도 기능

...을 포함하는 것을 시사하고 있습니다 

Turner 등 9뿐만 아니라 소아과의 이정표 평가 연구의 일환으로 교수개발의 중요성을 확인했다. 역량에 기초한 교육, 이정표 및 EPA의 보급의 진전에 따라 교원은 변화하는 용어와 평가의 개념과 혼동되어 목적을 상실할 수 있습니다.

Faculty development in assessment should be a core competency for faculty, particularly clinician educators, who will provide much of the workplace-based assessment. Favreau et al 15 in this issue introduce key skills for faculty development as part of the assessment of EPAs. They suggest that faculty development include (1) training in observation skills in authentic settings (workplace-based assessments), (2) feedback and coaching skills, (3) self-assessment and reflection skills, and (4) peer guidance skills developed through a community of practice. Turner et al 9 similarly identified the importance of faculty development as part of their study of milestone assessment in pediatrics. With the evolution of competency-based education, milestones, and the spread of EPAs in many programs, faculty may become confused with the changing terminology and concepts of assessment and lose site of the purpose.

우리의 책임

Our Responsibility

평가의 목적은 환자에게 안전하고 고품질의 서비스를 제공하는 것입니다. 그 점을 염두에 둘 수 있다면, 평가 시스템은 의미가 있습니다. 평가가 이해되고 평가되어 우리의 건강 교육 기관의 원단과 문화에 통합되어 있는지 확인하는 것은 우리의 책임입니다

The purpose of assessment is to foster safe, high-quality care to our patients, and if we can keep that in mind, the assessment system will make sense. It is our responsibility to make sure that assessment is understood, valued, and integrated into the fabric and culture of our health education institutions.

 2017 Jun;92(6):721-724. doi: 10.1097/ACM.0000000000001687.

Assessment ReconsideredFinding the Balance Between Patient SafetyStudent Ranking, and Feedback for Improved Learning.








의학교육에서 평가(N Engl J Med 2007)

Assessment in Medical Education

Ronald M. Epstein, M.D.

N Engl J Med 2007; 356:387-396January 25, 2007DOI: 10.1056/NEJMra054784

어떤 식으로든, 대부분의 의사들은 연수생, 동료 및 기타 보건 전문가의 능력을 평가한다. 그러나 위의 예에서 알 수 있듯이, 임상에서 진단 테스트를 사용하는 것에 비해서, 교육 평가 도구를 사용하는 것은 편안하지 않을 수 있습니다. 이 논문는 일반적으로 사용되는 것과 새롭게 등장한 평가 방법에 대한 개념적 프레임워크를 설명하고, 간략한 업데이트를 제공하고 의사의 전문 역량 및 성과를 평가할 때 각 방법이 가진 장단점을 논의할 것이다.

In one way or another, most practicing physicians are involved in assessing the competence of trainees, peers, and other health professionals. As the example above suggests, however, they may not be as comfortable using educational assessment tools as they are using more clinically focused diagnostic tests. This article provides a conceptual framework for and a brief update on commonly used and emerging methods of assessment, discusses the strengths and limitations of each method, and identifies several challenges in the assessment of physicians' professional competence and performance.

역량과 수행능력


다른 문헌에서, Hundert와 저는 "의사소통능력, 지식, 기술 능력, 임상 추론, 감정, 가치, 성찰을 일상적으로 신중하게 사용하여 자신이 모시는(serve) 개인과 지역사회에 이득이 되도록 일상적 실천에 반영하는 능력"을 "의학적 역량"이라고 정의했습니다. 미국의 경우, 레지던트 및 의대생의 평가는 주로 ACGME에서 개발 한 모델을 기반으로합니다. 이 모델은 의학 지식, 환자 간호, 전문성, 의사 소통 및 대인 관계 기술, 실습 기반 학습 및 개선, 시스템 기반 실습이라는 6 가지 상호 연관된 역량 영역을 사용합니다 .2

Elsewhere, Hundert and I have defined competence in medicine as “the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individuals and communities being served.”1 In the United States, the assessment of medical residents, and increasingly of medical students, is largely based on a model that was developed by the Accreditation Council for Graduate Medical Education (ACGME). This model uses six interrelated domains of competence: medical knowledge, patient care, professionalism, communication and interpersonal skills, practice-based learning and improvement, and systems-based practice.2

역량은 일시적 성취가 아니라 평생에 걸쳐 학습하는 습관입니다 3. 평가는 자신의 학습 요구를 파악하고 이에 대응할 수 있도록 도움을 주는 데 중요한 역할을합니다. 이상적으로, 역량(학생이나 의사가 할 수있는 것)에 대한 평가는 실제 수행능력 (관찰/감독이 없는 상황에서의 습관적 행동)에 대한 통찰력을 제공해야합니다. 또한 평가는 변화에 대한 적응력을 향상시키고, 새로운 지식을 발견 및 생성하고, 전반적인 수행능력을 향상시킬 수 있는 힘이 있다 .4

Competence is not an achievement but rather a habit of lifelong learning3; assessment plays an integral role in helping physicians identify and respond to their own learning needs. Ideally, the assessment of competence (what the student or physician is able to do) should provide insight into actual performance (what he or she does habitually when not observed), as well as the capacity to adapt to change, find and generate new knowledge, and improve overall performance.4

역량은 맥락-의존적contextual이어서, 실재 세계의 특정 상황에서 수행해야하는 과제와 사람의 능력 사이의 관계를 반영합니다 .5 여기에 포함되는 맥락적 변수에는 실무 환경, 질병의 지역 유병률, 환자의 성격 증상, 환자의 교육 수준, 환자 및 의사의 기타 인구 통계적 특성 등이 있다. 병력청취 또는 임상추론과 다양한 역량의 측면도 내용에 따라 달라지며, 모든 상황에 대하여 일반화 될 수 있지 않다. 7 다만 몇 가지 중요한 기술(예 : 치료적 관계 형성 능력)은 내용에 덜 의존적 일 수 있습니다 .8

Competence is contextual, reflecting the relationship between a person's abilities and the tasks he or she is required to perform in a particular situation in the real world.5 Common contextual factors include the practice setting, the local prevalence of disease, the nature of the patient's presenting symptoms, the patient's educational level, and other demographic characteristics of the patient and of the physician. Many aspects of competence, such as history taking and clinical reasoning, are also content-specific and not necessarily generalizable to all situations. A student's clinical reasoning may appear to be competent in areas in which his or her base of knowledge is well organized and accessible6 but may appear to be much less competent in unfamiliar territory.7 However, some important skills (e.g., the ability to form therapeutic relationships) may be less dependent on content.8

또한 역량 발달적입니다. 마음과 행동의 습관, 실용적 지혜는 의도적인 연습 9과 경험의 성찰을 통해 얻게됩니다 .10-14 

Competence is also developmental. Habits of mind and behavior and practical wisdom are gained through deliberate practice9 and reflection on experience.10-14 

  • 학생은 실제에서 제거된 추상적, 규칙 기반의 공식을 초심자 수준에서 시작하여
    Students begin their training at a novice level, using abstract, rule-based formulas that are removed from actual practice. 

  • 더 높은 수준에서 이러한 규칙이 구체적 상황에 따라 분화되고
    At higher levels, students apply these rules differentially to specific situations. 

  • 레지던트 기간에는 상황에 대한 전체적인 관점을 가지고 판단을 내리며, 기저 원칙을 심층적으로 이해하여 진단적 지름길을 만든다
    During residency, trainees make judgments that reflect a holistic view of a situation and eventually take diagnostic shortcuts based on a deeper understanding of underlying principles. 

  • 전문가는 모호한 현실세계에서 빠른, 맥락 기반의 판단을 내릴 수 있다. 자신의 인지과정에 대해 충분히 인식하고 있으며, 어떻게 그 상황을 인식하는지를 설명할 수 있다.
    Experts are able to make rapid, context-based judgments in ambiguous real-life situations and have sufficient awareness of their own cognitive processes to articulate and explain how they recognize situations in which deliberation is essential. 

상황과 내용에 따라 역량 개발의 속도가 다를 수 있습니다. 발달은 맥락과의 상호작용이기도 하다. 피곤하거나 혼란 스럽거나 짜증이 났을 때 임상의의 수행능력은 낮아지며, 경험이 부족한 임상의의 능력은 특히 스트레스의 영향을 받기 쉽습니다 15,16.

Development of competence in different contexts and content areas may proceed at different rates. Context and developmental level also interact. Although all clinicians may perform at a lower level of competence when they are tired, distracted, or annoyed, the competence of less experienced clinicians may be particularly susceptible to the influence of stress.15,16

평가의 목적


지난 10 년 동안 의과 대학, 대학원 교육 프로그램 및 라이센싱 기관은 연수생과 실습 의사의 능력에 대한 정확하고 신뢰할 수있는시의 적절한 평가를 제공하기 위해 새로운 노력을 기울였습니다 .1,2,17 이러한 평가에는 세 가지 주요 목표가 있습니다. 

  • 모든 학습자와 실무자에게 동기를 부여하고 미래 학습의 방향성을 제시하여 역량을 최적화

  • 무능한 의사를 찾아서 대중을 보호

  • 고급 교육을 받기 위해 지원자를 선택할 수있는 기반을 제공함

Over the past decade, medical schools, postgraduate training programs, and licensing bodies have made new efforts to provide accurate, reliable, and timely assessments of the competence of trainees and practicing physicians.1,2,17 Such assessments have three main goals: 

  • to optimize the capabilities of all learners and practitioners by providing motivation and direction for future learning, 

  • to protect the public by identifying incompetent physicians, and 

  • to provide a basis for choosing applicants for advanced training.

평가는 형성 (미래 학습 지도, 재보장 제공, 성찰 촉진 및 가치 형성) 또는 총괄 (능력 또는 의료행위 수행 적합성에 대한 전반적인 판단, 고등 수준이 책임에 대한 자격 부여)이 될 수 있습니다. 

  • 형성평가는 상대적으로 구조화되지 않은 지식 체계에 접근하는 학습자를위한 벤치 마크를 제공합니다. 학생들은 본래의 학습 동기를 강화하고 학생들에게 더 높은 기준을 정하도록 고무 할 수 있습니다 .18 

  • 총괄평가는 전문적인 자기 규제와 책임 성을 제공하기 위한 것이지만, 이후에 추가 연습이나 훈련에는 장벽으로 작용할 수도 있습니다 .19 

Assessment can be formative (guiding future learning, providing reassurance, promoting reflection, and shaping values) or summative (making an overall judgment about competence, fitness to practice, or qualification for advancement to higher levels of responsibility). 

  • Formative assessments provide benchmarks to orient the learner who is approaching a relatively unstructured body of knowledge. They can reinforce students' intrinsic motivation to learn and inspire them to set higher standards for themselves.18 

  • Although summative assessments are intended to provide professional self-regulation and accountability, they may also act as a barrier to further practice or training.19 

형성적 용도로만 사용할 수있는 평가와 총괄적 사용에 충분한 심리측정적 강건함을 갖춘 평가 사이에 구분이 필요하다. 이러한 구분은 고부담 평가 (예 : 면허 및 인증 시험) 방법을 선택할 때 특히 중요합니다. 총괄평가는 학습을 유도하는데 필요한 충분한 피드백을 제공하지 못할 수도 있습니다 .20 그러나 학생들은 시험에 나올 내용을 공부하는 경향이 있으므로 총괄평가는 피드백이 없어도 학습에 영향을 줄 수 있습니다.

A distinction should be made between assessments that are suitable only for formative use and those that have sufficient psychometric rigor for summative use. This distinction is especially important in selecting a method of evaluating competence for high-stakes assessments (i.e., licensing and certification examinations). Correspondingly, summative assessments may not provide sufficient feedback to drive learning.20 However, because students tend to study that which they expect to be tested on, summative assessment may influence learning even in the absence of feedback.

평가 방법


모든 평가 방법에는 내재된 강점과 약점이 있습니다. 시간에 따라 관측 수를 늘리고 다수의 평가 방법의 사용하여 방법적 결함을 부분적으로 보완 할 수있다 .1,21 Van der Vleuten22는 평가 방법의 유용성을 판단하기 위한 5 가지 기준을 제시하였다

  • 신뢰도 (측정의 정도 정확성과 재현성), 

  • 타당도 (평가가 요구하는 것을 측정하는지 여부), 

  • 미래의 학습과 실습에 미치는 영향, 

  • 학습자와 교수진의 수용 가능성, 

  • 비용 (개별 연수생, 기관 및 사회 전반)

All methods of assessment have strengths and intrinsic flaws. The use of multiple observations and several different assessment methods over time can partially compensate for flaws in any one method.1,21 Van der Vleuten22 describes five criteria for determining the usefulness of a particular method of assessment: 

  • reliability (the degree to which the measurement is accurate and reproducible), 

  • validity (whether the assessment measures what it claims to measure), 

  • impact on future learning and practice, 

  • acceptability to learners and faculty, and 

  • costs (to the individual trainee, the institution, and society at large).

필기 시험

Written Examinations

필기 시험 문제는 일반적으로 개방형인지 객관형인지에 따라 분류됩니다. 또한, 맥락은 "맥락이 풍부"하거나 "맥락이 빈곤"한 것으로 구분 될 수있다. 

    • 임상적 맥락이 풍부한 질문은 임상의 특징인 복잡한 인지 과정을 유도한다. 

    • 반대로 맥락이 부족한 질문은 기본적인 사실적 지식만 확인할 뿐, 실제 임상 문제에 대한 transferability는 없다.

Written examination questions are typically classified according to whether they are open-ended or multiple choice. In addition, questions can be “context rich” or “context poor.”23 Questions with rich descriptions of the clinical context invite the more complex cognitive processes that are characteristic of clinical practice.24 Conversely, context-poor questions can test basic factual knowledge but not its transferability to real clinical problems.

선다형 문제는 많은 콘텐츠 영역을 포괄하고 비교적 짧은 기간에 관리 할 수 ​​있고 컴퓨터로 점수를 매길 수있는 많은 수의 시험 항목을 제공 할 수 있기 때문에 일반적으로 평가에 많이 사용됩니다. 따라서 많은 수의 연수생들에 대한 시험 관리를 간단하고 표준화시킨다. 25 가장 일반적인 형식은 학생에게 가능한 답의 목록에서 가장 좋은 답을 선택하도록 요청하는 형태이다. 임상추론 프로세스를 더 잘 평가할 수 있는 최신 형식도 있다.  

Multiple-choice questions are commonly used for assessment because they can provide a large number of examination items that encompass many content areas, can be administered in a relatively short period, and can be graded by computer. These factors make the administration of the examination to large numbers of trainees straightforward and standardized.25 Formats that ask the student to choose the best answer from a list of possible answers are most commonly used. However, newer formats may better assess processes of diagnostic reasoning. 

    • Key-feature items focus on critical decisions in particular clinical cases.26 

    • Script-concordance items present a situation (e.g., vaginal discharge in a patient), add a piece of information (dysuria), and ask the examinee to assess the degree to which this new information increases or decreases the probability of a particular outcome (acute salpingitis due to Chlamydia trachomatis).27 

묘사 된 상황이 모호하기 때문에 SCT의 문항은 실제 세계에서 임상적 판단력을 필요로 한다. SCT점수는 수험자의 교육 수준과 상관 관계가 있으며, 임상추론의 구두시험점수를 예측하는 것으로 나타났습니다.

Because the situations portrayed are ambiguous, script-concordance items may provide insight into clinical judgment in the real world. Answers to such items have been shown to correlate with the examinee's level of training and to predict future performance on oral examinations of clinical reasoning.28

맥락을 풍부하게 제시하는 선다형 문제를 작성하는 것은 어려운 일이며, 문항출제시 쉽게 물어볼 수없는 윤리적 딜레마 나 문화적 모호성과 같은 주제를 피하는 경향이있다 .29 또한 학생은 정답을 아는 경우에 질문에 답할 수 있지만, 정답을 몰라도 답할 수 있다.13,30 이 효과는 큐잉(찍기)이라고 하며, 진단추론을 평가할 때 특히 문제가됩니다. Premature closure는 정확한 진단이 고려되기 전에 의사 결정을 내려버리는 것인데, 이것은 흔한 진단오류의 원인이다. 31,32 R-type 문항, 개방형 단답형 문항은 '찍기'를 최소화 할 수 있습니다. 구조화 된 에세이는 또한 '찍을 수 있는 힌트'를 배제합니다. 또한, 구조화 에세이는 더 복잡한 인지 프로세스를 필요로하며 객관식 질문보다 맥락화 된 답을 가능하게 한다. 분명한 채점 가이드 라인만 있으면, 구조화 에세이도 심리측정상 강건할 수 있습니다.

Multiple-choice questions that are rich in context are difficult to write, and those who write them tend to avoid topics — such as ethical dilemmas or cultural ambiguities — that cannot be asked about easily.29 Multiple-choice questions may also create situations in which an examinee can answer a question by recognizing the correct option, but could not have answered it in the absence of options.23,30 This effect, called cueing, is especially problematic when diagnostic reasoning is being assessed, because premature closure — arriving at a decision before the correct diagnosis has been considered — is a common reason for diagnostic errors in clinical practice.31,32 Extended matching items (several questions, all with the same long list of possible answers), as well as open-ended short-answer questions, can minimize cueing.23 Structured essays also preclude cueing. In addition, they involve more complex cognitive processes and allow for more contextualized answers than do multiple-choice questions. When clear grading guidelines are in place, structured essays can be psychometrically robust.

감독의사에 의한 평가

Assessments by Supervising Clinicians

임상의가 특정 기간동안 학생을 관찰하고 받은 인상은 환자들과의 성과를 평가하는 가장 일반적인 도구로 남아 있습니다. 학생과 레지던트는 일반적으로 로테이션이 끝날 때, 글로벌 평가를 받으며, 다양한 주치의의 의견을 듣습니다. 명확한 표준이 없다면 주관성이 문제가 될 수 있지만, 더 중요한 문제는 환자와 상호 작용하는 동안 연수생을 직접 관찰하는 것이 너무 드물다는 것이다.

Supervising clinicians' observations and impressions of students over a specific period remain the most common tool used to evaluate performance with patients. Students and residents most commonly receive global ratings at the end of a rotation, with comments from a variety of supervising physicians. Although subjectivity can be a problem in the absence of clearly articulated standards, a more important issue is that direct observation of trainees while they are interacting with patients is too infrequent.33

직접 관찰 또는 비디오 리뷰

Direct Observation or Video Review

"long case"34와 "mini-clinical-evaluation exercise"(mini-CEX) 35는 학습자를 직접 더 자주 관찰할 수 있도록 개발되었습니다. 이 평가에서 감독의사는 학생이 10-20 분의 기간 동안 병력 검사 및 신체 검사를 수행하는 동안 학생을 관찰합니다. 학생은 진단 및 치료 계획을 제시하며, 교수진은 이에 대해서 평가를 하고 교육적 피드백을 제공 할 수 있다. 감독의사의 관찰하에 실제 환자와 구조화된 연습을 하는 것은, 표준화 된 환자를 사용하여 구조화 시험을 보는 것과 동일한 수준의 신뢰성을 가질 수 있다. 그러나 신체 소견 및 임상 설정등의 광범위한 문제가 있다. 

The “long case”34 and the “mini–clinical-evaluation exercise” (mini-CEX)35 have been developed so that learners will be directly observed more frequently. In these assessments, a supervising physician observes while a trainee performs a focused history taking and physical examination over a period of 10 to 20 minutes. The trainee then presents a diagnosis and a treatment plan, and the faculty member rates the resident and may provide educational feedback. Structured exercises with actual patients under the observation of the supervising physician can have the same level of reliability as structured examinations using standardized patients34,36 yet encompass a wider range of problems, physical findings, and clinical settings. 

임상 현장에서 연수생을 직접 관찰하는 것은 구두사례 발표, 임상 추론을 평가하는 서면 연습, 문헌 검색과 같이 환자와 만난 후에 수행하는 연습과 결합될 수 있습니다 .8,37 또한 환자와의 접촉을 녹화한 비디오 리뷰는 임상적 상호 작용에서 연수생의 기술에 대한 피드백을 평가하고 제공하는 강력한 수단이 된다8,38

Direct observation of trainees in clinical settings can be coupled with exercises that trainees perform after their encounters with patients, such as oral case presentations, written exercises that assess clinical reasoning, and literature searches.8,37 In addition, review of videos of encounters with patients offers a powerful means of evaluating and providing feedback on trainees' skills in clinical interactions.8,38

임상 시뮬레이션

Clinical Simulations

표준화 된 환자 - 반복적으로 환자를 꾸준히 묘사하도록 훈련된 배우 - 는 OSCE에 활용되는 경우가 많으며, 각기 다른 과제에 중점을 둔 일련의 '스테이션'으로 구성됩니다. 2004년 이래로 이 시험은 모든 의대생이 보는 미국의 의학 면허 시험으로 진행되고 있다.39 관찰 교원observing faculty이나 SP는 학생의 성적을 평가하기 위해 구체적 행동에 대한 체크리스트 또는 글로벌 평가 양식을 사용합니다 .40 

    • 체크리스트에는 "환자가 훈제 받았는지 물어 본다"와 "발목 반사를 체크 한 것"과 같은 항목이 포함될 수 있습니다. 

    • 글로벌 평가에서는 환자진찰이 얼마나 잘 조직되었는지, 그리고 학생이 적절하게 공감을 느꼈는지에 대한 등급을 묻습니다. 

보통 3~4시간 동안 진행되는, 최소 10 개의 스테이션이 0.85에서 0.90의 신뢰도를 달성하는 데 필요합니다. 이러한 조건 하에서, SP를 사용한 구조화 평가는 실제 환자와의 만남을 직접 관찰하고 평가하는 것과 거의 동일한 신뢰도를 갖는다.

Standardized patients — actors who are trained to portray patients consistently on repeated occasions — are often incorporated into objective structured clinical examinations (OSCEs), which consist of a series of timed “stations,” each one focused on a different task. Since 2004, these examinations have been part of the U.S. Medical Licensing Examination that all senior medical students take.39 The observing faculty member or the standardized patient uses either a checklist of specific behaviors or a global rating form to evaluate the student's performance.40 The checklist might include items such as “asked if the patient smoked” and “checked ankle reflexes.” The global rating form might ask for a rating of how well the visit was organized and whether the student was appropriately empathetic. A minimum of 10 stations, which the student usually visits over the course of 3 to 4 hours, is necessary to achieve a reliability of 0.85 to 0.90.41 Under these conditions, structured assessments with the use of standardized patients are as reliable as ratings of directly observed encounters with real patients and take about the same amount of time.42

SP와의 상호 작용은 특정 교육 목표에 맞춰 조정될 수 있으며, SP는 자신이 연기하는 병력 및 신체 검사와 관련하여 학생의 성과를 신뢰성있게 평가할 수 있습니다. SP와의 만남을 관찰하는 교수진은 연수생의 임상적 판단과 병력 청취 또는 신체 검사의 전반적인 일관성에 대한 추가적인 통찰력을 제공 할 수 있습니다. 

Interactions with standardized patients can be tailored to meet specific educational goals, and the actors who portray the patients can reliably rate students' performance with respect to history taking and physical examinations. Faculty members who observe encounters with standardized patients can offer additional insights on trainees' clinical judgment and the overall coherence of the history taking or physical examination. 

실제 임상 환경에서 예고없이 SP를 활용하여 학생의 진단적 추론, 치료 결정 및 의사 소통 기술을 평가하는 연구가 이뤄진 바 있다. 43-46 예고되지 않은 표준화 된 환자의 사용은 특히 실무 경험이있는 상급 수준의 의사나 피훈련자를 평가하는데 특히 중요하게 사용될 수 있다.

Unannounced standardized patients, who with the examinees' prior approval present incognito in actual clinical settings, have been used in health services research to evaluate examinees' diagnostic reasoning, treatment decisions, and communication skills.43-46 The use of unannounced standardized patients may prove to be particularly valuable in the assessment of higher-level trainees and physicians in practice.

중환자실 및 수술 환경에서 연수생의 임상 기술을 평가하기 위한 시뮬레이션의 사용이 증가하고 있습니다 .48 다양한 인터벤션에 심장 소리, 호흡, 산소 농도, 맥박 등이 반응하는 정교한 마네킹과 관련된 시뮬레이션을 사용하여 어떻게 활력징후가 불안정한 환자를 관리하는지 평가할 수 있다. 외과 시뮬레이션 센터는 이제 고감도 컴퓨터 그래픽을 사용하고 수술 센서를 직접 조작하여 multisensory 환경을 만듭니다. 하이테크 시뮬레이션은 중요한 학습 지원으로 점점 더 많이 사용되고 있으며 지식, 임상 추론 및 팀웍 평가에 유용 할 수 있습니다.

The use of simulation to assess trainees' clinical skills in intensive care and surgical settings is on the rise.47 Simulations involving sophisticated mannequins with heart sounds, respirations, oximeter readings, and pulses that respond to a variety of interventions can be used to assess how individuals or teams manage unstable vital signs. Surgical simulation centers now routinely use high-fidelity computer graphics and hands-on manipulation of surgical instruments to create a multisensory environment. High-technology simulation is seen increasingly as an important learning aid and may prove to be useful in the assessment of knowledge, clinical reasoning, and teamwork.


Multisource (“360-Degree”) Assessments

동료, 다른 임상 팀 구성원, 환자 등에 의한 평가는 연수생의 업무 습관, 팀웍 능력 및 대인 관계 민감도에 대한 통찰력을 제공 할 수 있습니다 .48-50 의료 환경에서 다면피드백의 결과에 대한 연구결과는 거의 없지만, 영국의 모든 1년차와 2년차 의사를 위한 프로그램과 미국의 내과에서 재인증을 받는 모든 의사를위한 프로그램 등의 프로그램이 개발되고 있습니다. 다면피드백은 

    • 통계적 데이터와 내러티브 코멘트를 함께 사용하고, 

    • 소스가 신뢰할 수있고, 

    • 피드백이 건설적으로 프레임 되고, 

    • 전체 프로세스가 좋은 멘토링 및 후속 조치를 수반 할 때 

가장 효과적이다.

Assessments by peers, other members of the clinical team, and patients can provide insight into trainees' work habits, capacity for teamwork, and interpersonal sensitivity.48-50 Although there are few published data on outcomes of multisource feedback in medical settings, several large programs are being developed, including one for all first- and second-year house officers in the United Kingdom and another for all physicians undergoing recertification in internal medicine in the United States. Multisource feedback is most effective when it includes narrative comments as well as statistical data, when the sources are recognized as credible, when the feedback is framed constructively, and when the entire process is accompanied by good mentoring and follow-up.51

동료평가에 대한 최근의 연구는 연수생이 적시에timely 익명으로confidential 동료들에 의한 사려깊은 평가와 논평을 제공하면서, 이 리포트를 기반으로 성찰을 도와줄 수 있는 어드바이저가 있다면, 동료평가도 강력하고 통찰력있고 유익하다는 것을 보여준다. 동료평가는 평가자가 어떻게 선택되느냐와 관계없이 일관성이 있는 것으로 나타났습니다. 그러한 평가는 안정적이고, 상급자에 의한 평가 뿐만 아니라 교실class 내 랭킹을 예측합니다 .54 동료 평가는 신뢰에 달려 있으며, 기밀성을 철저히 해야 한다. 그렇지 않으면 파멸적이고 파괴적이며 분열적일 수 있습니다.

Recent studies of peer assessments suggest that when trainees receive thoughtful ratings and comments by peers in a timely and confidential manner, along with support from advisers to help them reflect on the reports, they find the process powerful, insightful, and instructive.51,52 Peer assessments have been shown to be consistent regardless of the way the raters are selected. Such assessments are stable from year to year53 and predict subsequent class rankings as well as subsequent ratings by supervisors.54 Peer assessments depend on trust and require scrupulous attention to confidentiality. Otherwise they can be undermining, destructive, and divisive.

환자에 의한 평가는 원칙적으로는 가치가 있지만 몇 가지 문제가 있습니다. 만족할만한 신뢰성을 얻기 위해서는 50회 가량의 환자 설문 조사가 필요할 수 있습니다 .5 중증 환자는 종종 설문 조사를 완료하지 않습니다. 중증 환자는 컨디션이 나은 환자보다 의사에 대한 평가가 더 박하다.56) 또한 환자들이 언제나 임상 진료의 요소들 사이의 구분 할 수 있는 것은 아니며, 환자에 의한 평가는 일반적으로 후한 편이다. 이러한 한계로 인해 임상 성적을 평가할 수있는 유일한 도구로 환자 평가를 사용하기가 어렵습니다. 그러나 간호사에 의한 평가는 중요 할 수 있습니다. 간호사의 평가는 6~10개로도 신뢰성있는 결과를 얻을 수 있으며, 교수가 평가한 대인 관계 등급과 상관 관계가 있습니다 .59

Although patients' ratings of clinical performance are valuable in principle, they pose several problems. As many as 50 patient surveys may be necessary to achieve satisfactory reliability.55 Patients who are seriously ill often do not complete surveys; those who do tend to rate physicians less favorably than do patients who have milder conditions.56 Furthermore, patients are not always able to discriminate among the elements of clinical practice,57 and their ratings are typically high. These limitations make it difficult to use patient reports as the only tool for assessing clinical performance. However, ratings by nurses can be valuable. Such ratings have been found to be reliable with as few as 6 to 10 reports,58 and they correlate with both patients' and faculty members' ratings of the interpersonal aspects of trainees' performance.59

다른 사람이 자신을 보는 것 만큼 스스로를 보지 못한다는 인간의 근본적인 인지능력 한계 때문에 자기평가는 그다지 유용하지 않다. 또한 이전의 임상실적에 대한 자신의 평가가 달성하지 못하는 또 하나의 목적은 임상행위의 매 순간에 스스로를 모니터링 하는 능력입니다. 환자의 변화하는 요구를 충족시키기 위해서, 자신의 능력의 한계를 인식하기 위해서, 예기치 않은 상황을 관리하기 위해서 의사는 이러한 능력을 가져야 한다. 

Fundamental cognitive limitations in the ability of humans to know themselves as others see them restrict the usefulness of self-assessment. Furthermore, rating oneself on prior clinical performance may not achieve another important goal of self-assessment: the ability to monitor oneself from moment to moment during clinical practice.10,60 A physician must possess this ability in order to meet patients' changing needs, to recognize the limits of his or her own competence, and to manage unexpected situations.



포트폴리오에는 연수생의 특정 영역에 대한 문서화와 성찰이 포함됩니다. 여기에는 자기성찰이 결합됩니다 .61 의학 분야에서와 마찬가지로 포트폴리오는 연수생의 발전과 기술적 역량을 보여줍니다. 차트 노트, 추천서, 절차 기록, 비디오 테이프 협의, 동료 평가, 환자 설문 조사, 문학 검색, 품질 향상 프로젝트 및 기타 학습 자료를 포함 할 수 있습니다. 또한 포트폴리오에는 종종 자체 평가, 학습 계획 및 성찰 에세이가 포함됩니다. 포트폴리오가 최대한 효과적이기 위해서는 다양한 내용을 모으고 해석하는 과정에서 긴밀한 멘토링이 제공되어야 한다. 여기에는 상당한 시간이 필요할 수 있다. 포트폴리오는 가장 일반적으로 형성 평가에 사용되지만, 총괄평가와 고부담결정에서도 사용이 증가하고 있습니다.

Portfolios include documentation of and reflection about specific areas of a trainee's competence. This evidence is combined with self-reflection.61 In medicine, just as in the visual arts, portfolios demonstrate a trainee's development and technical capacity. They can include chart notes, referral letters, procedure logs, videotaped consultations, peer assessments, patient surveys, literature searches, quality-improvement projects, and any other type of learning material. Portfolios also frequently include self-assessments, learning plans, and reflective essays. For portfolios to be maximally effective, close mentoring is required in the assembly and interpretation of the contents; considerable time can be expended in this effort. Portfolios are most commonly used in formative assessments, but their use for summative evaluations and high-stakes decisions about advancement is increasing.20

평가의 과제


새롭게 등장한 평가영역

New Domains of Assessment

아직 초기 단계여서 문제가 있는 여러 영역이 있습니다. 치료의 질과 환자의 안전은 효과적인 팀워크에 달려 있으며 ACGME에 명시된 몇 가지 역량의 핵심 요소로 팀워크 교육이 강조되고 있지만 팀워크를 평가할 수있는 검증 된 방법은 없습니다. 전문직업성에 대한 정의는 물론 그것을 측정하는 최선의 방법이 무엇인지에 대한 합의가 부족하다. 의사소통을 평가하는 수십 개의 척도가 의학 교육 및 연구에 사용되지만, 어느 한 척도가 다른 척도보다 우수하다는 증거는 거의 없다. 또한 환자가보고하는 경험은 종종 전문가가 부여한 평가와 상당히 다릅니다 .65

There are several domains in which assessment is in its infancy and remains problematic. Quality of care and patient safety depend on effective teamwork,62 and teamwork training is emphasized as an essential element of several areas of competence specified by the ACGME, yet there is no validated method of assessing teamwork. Experts do not agree on how to define professionalism — let alone how best to measure it.63 Dozens of scales that rate communication are used in medical education and research,64 yet there is little evidence that any one scale is better than another; furthermore, the experiences that patients report often differ considerably from ratings given by experts.65

다양한 방법의 활용과 장기적 평가

Multimethod and Longitudinal Assessment

다양한 평가 방법을 사용하면 개별 평가 형식의 많은 한계점을 극복 할 수 있습니다. 8,22,36,66 임상 상황의 다양성으로 인해 역량에 대한 더 많은 통찰력을 얻을 수 있으며, 여러 형식을 사용하면 콘텐츠를 다양하게 할 수 있다. 여러 관찰자를 포함시켜서 연수생의 수행능력의 여러 측면에 대한 정보를 얻을 수 있다. 종단적 평가는 어느 한 시점에서 과도한 테스트를 피하고 지속적인 전문 개발 모니터링을위한 토대가됩니다.

The use of multiple methods of assessment can overcome many of the limitations of individual assessment formats.8,22,36,66 Variation of the clinical context allows for broader insights into competence, the use of multiple formats provides greater variety in the areas of content that are evaluated, and input from multiple observers provides information on distinct aspects of a trainee's performance. Longitudinal assessment avoids excessive testing at any one point in time and serves as the foundation for monitoring ongoing professional development.

다양한 평가방법에는 다음이 있다.

In the example at the beginning of this article, a multimethod assessment might include 

    • direct observation of the student interacting with several patients at different points during the rotation, 

    • a multiple-choice examination with both “key features” and “script-concordance” items to assess clinical reasoning, 

    • an encounter with a standardized patient followed by an oral examination to assess clinical skills in a standardized setting, 

    • written essays that would require literature searches and synthesis of the medical literature on the basic science or clinical aspects of one or more of the diseases the student encountered, and 

    • peer assessments to provide insights into interpersonal skills and work habits.

이러한 모든 결과를 포트폴리오로 결합하는 것은 임상의 진단과 유사합니다. 학생에 대한 전반적인 그림을 알기 위해서는 다양한 정보 유형을 종합해야한다. 일부 의과 대학에서는 여러 방법을 사용하는 종단 적 평가를 시작했지만, 그 양과 질적으로 다른 유형의 데이터를 처리하는 가장 좋은 방법은 아직까지는 밝혀지지 않았습니다. 포트폴리오 평가가 광범위하게 적용되고 시간 테스트에 견딜 수 있도록하려면 질적 및 양적 데이터를 결합하는 새로운 방법이 필요합니다.

The combination of all these results into a portfolio resembles the art of diagnosis; it demands that the student synthesize various bits and types of information in order to come up with an overall picture. Although a few medical schools have begun to institute longitudinal assessments that use multiple methods,8 the best way to deal with the quantity and the qualitatively different types of data that the process generates is not yet clear. New ways of combining qualitative and quantitative data will be required if portfolio assessments are to find widespread application and withstand the test of time.

평가의 표준화

Standardization of Assessment

인정 기관은 커리큘럼이 다루고 평가해야하는 광범위한 영역을 지정하지만 대부분의 경우 개별 의과 대학은 평가 방법 및 표준을 자체적으로 결정한다. 이 모델은 커리큘럼과 평가 간의 일관성을 유지할 수있는 장점이 있지만 여러 의과대학 사이의 비교는 어렵다. 67 국가적 표준화와 학교의 자율적 평가 사이에 이상적인 균형이 필요하다. 또한, 의과 대학 내에서는 모든 학생들이 동일한 평가 패키지를 요구하지 않을 수 있습니다. 예를 들어 초기 선별 검사 후에 어려움을 겪고있는 사람들을 대상으로보다 광범위한 테스트를 수행 할 수 있습니다.

Although accrediting organizations specify broad areas that the curriculum should cover and assess, for the most part individual medical schools make their own decisions about methods and standards of assessment. This model may have the advantage of ensuring consistency between the curriculum and assessment, but it also makes it difficult to compare students across medical schools for the purpose of subsequent training.67 The ideal balance between nationally standardized and school-specific assessment remains to be determined. Furthermore, within a given medical school, all students may not require the same package of assessments — for example, initial screening examinations may be followed by more extensive testing for those who have difficulties.

학습과 평가

Assessment and Learning

일반적으로 평가는 학습을 유도한다고 인정한다. 평가는 의도한 결과와 의도하지 않은 결과를 모두 가져올 수 있습니다 .22 학생들은 특정 시험 형식을 예상 할 때보다 신중하게 학습하며, 형식이 달라지면 학생들은 이론적인 문제보다 임상적인 문제로 초점을 옮길 수 있습니다 .69 동료에 의한 평가는 전문성, 팀워크, 의사 소통 등을 향상시킨다. 의도하지 않은 평가의 결과로는 학생들이 시험을 위해 벼락치기를 한다거나, 성찰적 학습보다는 표면적 학습만을 하려는 경향 등이 있다.

It is generally acknowledged that assessment drives learning; however, assessment can have both intended and unintended consequences.22 Students study more thoughtfully when they anticipate certain examination formats,68 and changes in the format can shift their focus to clinical rather than theoretical issues.69 Assessment by peers seems to promote professionalism, teamwork, and communication.52 The unintended effects of assessment include the tendency for students to cram for examinations and to substitute superficial knowledge for reflective learning.

전문성의 평가

Assessment of Expertise

전문 지식 수준이 높은 연수생 및 의사의 평가에는 특별한 어려움이 있다. 전문 지식은 독특하고 정교하며 조직화 된 지식으로 특징지어지며, 특정 임상 패턴에 의해 촉발되는 경우에만 종종 나타납니다 .70,71 따라서 일상적으로는 타당한 판단을 내리는 전문가라도, 의사소통기술, 지식, 추론기술을 평가하기 위한 일부 시험에서는 성적이 좋지 않을 수 있다.  

The assessment of trainees and physicians who have higher levels of expertise presents particular challenges. Expertise is characterized by unique, elaborated, and well-organized bodies of knowledge that are often revealed only when they are triggered by characteristic clinical patterns.70,71 Thus, experts who are unable to access their knowledge in artificial testing situations but who make sound judgments in practice may do poorly on some tests that are designed to assess communication skills, knowledge, or reasoning. 

또한 임상 전문 지식은...

Furthermore, clinical expertise implies the practical wisdom to...

    • manage ambiguous and unstructured problems, 

    • balance competing explanations, 

    • avoid premature closure, 

    • note exceptions to rules and principles, and 

    • — even when under stress — choose one of the several courses of action that are acceptable but imperfect. 

하나의 정답에 대해 합의가 이루어지지 않는 상황에서 귀납적 사고 (가능한 해석을 생성하기위한 데이터의 구성) 또는 연역적 사고 (가능성들 사이의 분별을위한 데이터 분석)를 테스트하는 것은 상당한 심리측정적 문제를 야기합니다.

Testing either inductive thinking (the organization of data to generate possible interpretations) or deductive thinking (the analysis of data to discern among possibilities) in situations in which there is no consensus on a single correct answer presents formidable psychometric challenges.

평가와 미래 수행능력

Assessment and Future Performance

평가가 대중을 저질의 의료로부터 보호한다는 증거는 간접적이고, 부족하다. 여기에는 여러 방법을 사용하는 평가 프로그램과 진단 테스트, 처방 및 추천 패턴과 같은 상대적으로 조잡한 추정치 간의 상관 관계를 보여주는 몇 가지 연구로 뿐이다. 72 평가를 미래 성과와 상관시키는 것은 어려운데, 왜냐하면 평가 프로세스의 부적합성뿐만 아니라 훈련 효과에 직접적으로 기여할 수있는 관련 성과 강건한 측정 결과가 정의되지 않았기 때문이다. 진료의 전반적인 수준을 측정하기 위하여 환자의 설문 조사와 기관 및 진료 데이터베이스의 분석이 등을 사용하고 있다. 이러한 새로운 도구들이 더 다듬어지면 교육 성과연구를 위한 더 견고한 기반이 될 수 있습니다.

The evidence that assessment protects the public from poor-quality care is both indirect and scarce; it consists of a few studies that show correlations between assessment programs that use multiple methods and relatively crude estimates of quality such as diagnostic testing, prescribing, and referral patterns.72 Correlating assessment with future performance is difficult not only because of inadequacies in the assessment process itself but also because relevant, robust measures of outcome that can be directly attributed to the effects of training have not been defined. Current efforts to measure the overall quality of care include patient surveys and analyses of institutional and practice databases. When these new tools are refined, they may provide a more solid foundation for research on educational outcomes.



이러한 모든 문제를 고려할 때 표 2에 요약 된 원칙을 명심한다면 현재의 평가 방법이 향상 될 것입니다. 평가의 내용, 형식 및 빈도뿐만 아니라 피드백의 시기 및 형식은 커리큘럼의 특정 목표에 따라야합니다. 다양한 역량영역은 다양한 방법으로, 빈번하고 건설적인 피드백과 함께, 일관되고 종단적인 방식으로 평가되어야 합니다. 교육자는 학습에 대한 평가의 영향, 평가의 의도하지 않은 잠재적 영향, 각 방법의 한계 (비용 포함) 및 평가가 진행되는 프로그램이나 기관의 일반적인 문화를 염두에 두어야합니다.

Considering all these challenges, current assessment practices would be enhanced if the principles summarized in Table 2 were kept clearly in mind. The content, format, and frequency of assessment, as well as the timing and format of feedback, should follow from the specific goals of the medical education program. The various domains of competence should be assessed in an integrated, coherent, and longitudinal fashion with the use of multiple methods and provision of frequent and constructive feedback. Educators should be mindful of the impact of assessment on learning, the potential unintended effects of assessment, the limitations of each method (including cost), and the prevailing culture of the program or institution in which the assessment is occurring.

평가는 전문성 개발의 모든 단계에 접어 들고 있습니다. 이것은 현재 의과 대학 입학 과정에서, 수련 연수 시작과 동시에, 그리고 여러 의료위원회가 채택한 "인증 유지"요구 사항의 일부로 사용됩니다 .75 여러 가지 방법으로 종단 간 평가를 실시하면, 연수생의 학습 필요를 평가하고 임상의에 의해 차선책을 식별하고 교정하는 데 필요합니다. 형식적 또는 포괄적 인 평가 형식을 사용할지, 평가를 자주 수행해야하는지, 그리고 어떤 표준을 마련해야하는지에 대한 결정은 여전히 ​​어려운 과제입니다. 교육자는 또한 정의하고 정량화하기 어려운 전문성, 팀웍 및 전문 지식과 같은 자질 평가 도구를 개발해야하는 어려움에 직면합니다.

Assessment is entering every phase of professional development. It is now used during the medical school application process,73 at the start of residency training,74 and as part of the “maintenance of certification” requirements that several medical boards have adopted.75 Multiple methods of assessment implemented longitudinally can provide the data that are needed to assess trainees' learning needs and to identify and remediate suboptimal performance by clinicians. Decisions about whether to use formative or summative assessment formats, how frequently assessments should be made, and what standards should be in place remain challenging. Educators also face the challenge of developing tools for the assessment of qualities such as professionalism, teamwork, and expertise that have been difficult to define and quantify.

 2007 Jan 25;356(4):387-96.

Assessment in medical education.








