평가프로그램 설계를 위한 새로운 프레임워크 (Adv in Health Sci Educ, 2010)

A new framework for designing programmes of assessment

J. Dijkstra • C. P. M. Van der Vleuten • L. W. T. Schuwirth




도입

Introduction


오랫동안 의학 교육 평가에 대한 연구는 개인 측정 도구와 psychometric quality에 크게 초점을 맞춰왔다. 그러나 의사의 역량이 지식, 기술, 태도 및 문제 해결과 같은 개별 요소로 구성되어있다는 관점이 팽배하며, 각각에 대한 하나의 최상의 측정 도구를 찾으려는 노력이 있어왔음을 고려하면, 이상한 것도 아니다. 이 접근법의 좋은 예는 임상술기 측정의 수단으로 선호되는 OSCE, 그리고 문제해결능력 평가를 위한 key feature 문항의 확고한 지위이다. 

For long, research on assessment in medical education has strongly focused on individual measurement instruments and their psychometric quality. This is not illogical given the prevailing view of medical competence as consisting of separate elements—knowledge, skills, attitude, and problem solving—and the quest for the single best measurement instrument for each. Good examples of this approach are the established position of the Objective Structured Clinical Examination as the preferred instrument for skill measure- ment (Van der Vleuten and Swanson 1990) and key feature as approach of choice for problem solving skills (Page et al. 1995; Schuwirth 1998). 


심리측정 기준의 가치와 단일 도구에 쏠린 초점은 도구의 장점과 약점에 대한 통찰력을 제공하였으며, 어떤 절충안이 필요한지에 대한 아이디어를 주었다. 그러나 이러한 접근법만으로는 역량을 총체적으로 평가할 수 있는 양질의 평가를 하기에 충분하지 않다. 의학적 역량은 개별 entity의 합이 아니라 통합된 전체integrated whole이기 때문에, 의학과 같은 포괄적인 학문에서는, 어떤 도구가 정신 분석적으로 타당할지라도, 단일 평가도구만으로는 종합적인 평가를위한 모든 정보를 제공 할 수 없다는 결론을 내리는 것이 논리적이다. 

Without detracting from the value of psychometric criteria and the focus on single instruments, which has provided valuable insights into the strengths and weaknesses of instruments as well as into the trade- offs that have to be made (Newble et al. 1994; Schuwirth and Van der Vleuten 2004; Van der Vleuten 1996), such an approach is not sufficient to high quality assessment of com- petence as a whole. From the point of view that medical competence is not the sum of separate entities but an integrated whole, it is only logical to conclude that no single instrument, however psychometrically sound, will ever be able to provide all the infor- mation for a comprehensive evaluation of competence in a domain as broad as medicine.


밀러의 피라미드는 역량의 discrete elements에 대한 적절한 도구를 선택하는 데 유용한 반면, layer 간의 관계 또는 도구의 조합 내에서의 관계를 설명하지는 않습니다. 불행히도 이러한 고도로 통합 된 평가 수준에서의 관계, 타협 및 절충에 대해서는 알려진 바가 거의 없습니다. 물론 도구의 혼합만으로 충분하지 않습니다. 능력을 종합적으로 측정하기 위해 목적을 지닌 방법의 배열이 필요합니다. 테스트가 무작위 샘플 항목 이상인 것과 마찬가지로 평가 프로그램은 무작위 추출 도구 이상이어야합니다.

While being a useful aid in selecting appropriate instruments for discrete elements of competence, Miller’s pyramid does not describe the relationships between the layers or within com- binations of instruments. Unfortunately, little is known about relations, compromises and trade-offs at this highly integrated level of assessment. Of course not just any mix of instruments will suffice: a purposeful arrangement of methods is required for measuring competence comprehensively. Similar to a test being more than a random sample of items, a programme of assessment should be more than a random selection of instruments.


'평가 프로그램'에 대한 단일 정의를 내리는 것은 쉽지 않지만, 핵심은 프로그램의 목표에 대한 명확한 정의로부터 시작하는 설계 프로세스입니다. 이것을 바탕으로...

It is not easy to provide a single definition of such a ‘‘programme of assessment’’, but central to the concept is a design process that starts with a clear definition of the goals of the programme. Based on this; 

  • 평가 영역에 대한 결정 well-informed, literature-based, and rational decisions are made about the different assessment areas to be included

  • 구체적인 평가 방법 the specific assessment methods, 

  • 다양한 소스의 결과가 통합되는 방법 the way results from various sources are combined, and 

  • 프로그램의 요소 간 강점과 약점을 조화하는 타협안 the trade-offs that have to be made between strengths and weaknesses of the programme’s components.


프로그램적 평가를 공부하는 것은 포괄적 역량의 수준에서만 이루어질 수 있으며, 이는 의학을 integrated whole task로 보아야 한다. 이것은 역량을 분리되어있는 entity로 나누거나 심지어는 이들 entity의 합으로 보는 관점과는 상반되는 것이다. 평가에 대한 holistic 관점에서 programmatic approach은 몇 가지 이론적 이점을 제공합니다.

Studying programmatic assessment can only be at the level of comprehensive competence, framing medicine as an integrated whole task. This in contradiction to the view of com- petence as split up into separate entities, or even as the sum of these entities. From a holistic perspective on assessment, a programmatic approach offers several theoretical advantages.

  • 무엇이 측정되고 측정되지 않는지에 대한 개요를 만드는 데 도움이 된다. 이것은 내용과 능력의 다른 측면 사이의 균형을 이뤄주며, 관련성이 떨어지는 사실적 지식과 같이 쉽게 측정 할 수있는 요소를 지나치게 강조하는 함정을 막습니다.

  • 다른 도구의 강점을 통해 일부 도구의 결함을 보상 할 수 있기 때문에, 전체적으로 능력을 확보 할 수있는 다양한 스펙트럼의 보완적 측정도구를 사용할 수 있고, competence as a whole을 잡아낼 수 있다.

  • 평가도구를 매칭함으로써 정보 수집의 중복을 줄이고, 효율성을 높일 수 있습니다. 한 테스트의 데이터가 이미 다른 테스트에서 사용 가능하다면, 시험 시간과 공간을 더 확보할 수 있다.

  • 하이 스테이크 (high-stakes) 시험에서, 여러 출처 (시험 또는 도구)의 정보를 결합한 정보에 입각하여 고도로 방어 가능한 결정을 내릴 수 있습니다.


  • – It can help to create an overview of what is and what is not being measured. This promotes the balancing of content and other aspects of competence and counteracts the pitfall of overemphasising easy-to-measure elements, like unrelated factual knowledge.

  • – It allows for compensation for the deficiencies of some instruments by the strengths of other instruments, resulting in a diverse spectrum of complementary measurement instruments that can capture competence as a whole.

  • – Matching instruments can increase efficiency by reducing redundancy in information gathering. When data on a subject are already available from another test, test time and space is freed for other subjects.

  • – In high-stakes examinations, information from different sources (tests or instruments) can be combined to achieve well-informed and highly defensible decisions.


물론 평가 프로그램의 기존 사례가 이미 많이 있습니다. 그러나 불행히도 이 분야의 퀄리티를 지원하거나 향상시키는 데 도움이되는 연구는 거의 없습니다.

Of course, many existing examples of programmes of assessment are around already, Unfortunately however, there is little research in this area that would help to support or improve their quality.



  • 평가가 학습을 유도한다는 개념을 기반으로 한 이 분야의 초기 발달 중 하나는 올바른 학생 행동을 달성하기 위한 목표, 교육 및 평가의 조정이었습니다 (Biggs 1996). 이론적으로는 교육 환경의 복잡성으로 인해 전체 평가 프로그램을 포괄 할 수 있지만 이러한 맞춤의 적용 수준은 측정 내용 (Webb 2007)을 훨씬 넘어서서 확대되는 경우는 거의 없다. 즉, 평가는 커리큘럼 목표에 따라 blueprinting한다. 

  • 심리 측정 기준의 적용에 초점을 둔 또 다른 접근법 (Harlen 2007)은 "unified view of validity"(Birenbaum 2007)와 높은 이해 관계 평가 프로그램에 대한 연구에 크게 의존 한 품질 분석을위한 틀을 만들었다 높은 합성 신뢰성을 목표로하는 의사의 인증 (Burch et al., 2008; Knight 2000; Wass et al. 2001). 

  • One of the early developments in this area, based on the notion that assessment drives learning, was the alignment of objectives, instruction, and assessment to achieve con- gruent student behaviour (Biggs 1996). Although in theory it might encompass an entire assessment programme, probably due to the complexity of educational environments, the application level of this alignment has rarely extended beyond the content of measure- ment (Webb 2007), i.e. blueprinting assessment based on curriculum objectives. 

  • Another approach focused on the application of psychometric criteria to combinations of methods (Harlen 2007), resulted in a framework for quality analysis which relied heavily on a ‘‘unified view of validity’’ (Birenbaum 2007) and research into high-stakes assessment programmes for certification of physicians aimed at high composite reliability (Burch et al. 2008; Knight 2000; Wass et al. 2001). 


그러나 둘 다 평가에 대한 일관된 프로그램 방식을 달성하지 못했습니다.

Neither achieved a coherent programmatic approach to assessment, however.


검사의 심리측정 품질은 중요하지만, 도구의 실제적인 실현 가능성, 교육 목표, 평가 환경 및 환경이 중요합니다. Ba- artman (2008)은 최근 진실성과 의미 성 같은 교육 기반 기준을 추가 할 것을 제안했다.

Undeniably, psychometric quality is important, but so are practical feasi- bility of instruments, educational goals, and context and environment of assessment. Ba- artman (2008) recently proposed adding education-based criteria, such as authenticity and meaningfulness.


Method


연구 디자인

Study design


We conducted focus group interviews to explore the experiences and views of assessment experts concerning good practices and new ideas about theoretical and practical issues in programmes of assessment. Prior to data collection, the research team devised a rough and ready framework (list of topics) as a starting point for the discussions. The framework consisted of six elements of assessment relating to theoretical issues as well as practical suggestions for an assessment programme (see Fig. 1). 

    • The overall purpose of the assessment (Goals) and objectives of the curriculum, 

    • determine what needs to be tested (Collecting information) to gain data about medical competence of students. 

    • The data from different tests or sources needs to be merged (Combining information) 

    • into an overview which can be distributed among various stakeholders (Reporting). 

    • Based on the goals and data a further action needs to be taken (Decision taking). 

    • Finally in order to ensure high-standard assessment, a system of quality checks and measures should be in place (Quality control).



참여자

Participants


An email giving details of the objectives and the topics of the focus groups invited 12 experts with extensive experience with difficulties and problems associated with pro- grammes of medical assessment to participate in the study. A total of nine experts vol- untarily took part in two focus groups. Three had to decline because of diary or health problems. The experts, five from North America and four fromEurope, fulfil different (and some multiple) roles in their assessment practice


절차

Procedure


The meeting was divided in four sessions on 1 day

    • a plenary introductory session in which the guiding (initial) framework was presented; 

    • two sessions split into groups, first on theoretical issues; and 

    • second on practical recommendations; and 

    • a plenary retrospective session summarising the discussions. 


It was explained to the participants that we were interested in variety of views and that there were no correct or incorrect answers. Dissent was encouraged. All sessions were semi-structured using the framework. Two of the researchers (LS & CvdV) moderated the sessions of one group each. A third researcher (JD) took field notes.


자료 분석

Data analysis


All sessions were audio recorded, transcribed, and read by the research team. One coder (JD) analysed the transcripts, starting with using the categories from the initial framework. Because this exploratory research requires an informed but open mind, the framework, including concepts and theories, was further developed in a continuous process of checking and refinement, without adhering to this pre-set framework. Furthermore the data was analysed by identifying and labelling new emerging themes and issues. When the research team met to evaluate the resulting themes and issues, they were forced to conclude that the first draft of the model (the framework guiding the discussions) was overly simplistic, causing ambiguities in coding and occasionally precluding coding altogether. The model was revised until the research team reached consensus that saturation of coding was reached and no new topics emerged. Finally the model was send to the participants to check if it reflected the discussion correctly and whether our interpretation of the dis- cussion was accurate. No major revisions were suggested by the participants, just a minor suggestion as to the specific captions in English was made by a native English speaking participant.


결과

Results



대체 프레임 워크 (그림 2 참조)는 초기 프레임 워크의 개선과 등장한 새로운 테마를 기반으로합니다. 그것은 우리의 초기 프레임 워크보다 더 상호 연관되고 포괄적이지만 본질적으로 덜 순차적입니다.

The alternative framework (see Fig. 2)is based on the refinement of the initial framework and new themes which emerged. It is more interrelated and comprehensive than our initial framework, but is less sequential in nature.


프레임 워크를 비교하면 둘 다 "목표" 중심적입니다. 다음으로 초기 프레임 워크 인 수집, 결합,보고 및 의사 결정의 네 가지 요소는 Program in Action이라는 새로운 프레임 워크에서 한 차원으로 표현되는 밀접한 관련 활동입니다. 정의의 일부 변경 사항을 제외하고이 두 가지 프레임 워크는 이와 유사합니다. 대조적으로,이 분석은 엄청난 양의 품질 관리 정보를 산출했습니다. 우리의 첫 번째 틀은 품질과 관련된 활동의 다양성과 이 문제에 대한 전문가의 중요성에 대한 정의를하지 못하는 것으로 보입니다. 품질은 다단계로 밝혀졌으며 프로세스 마지막 단계에서 '목표'는 '실행된 프로그램'과 통합되었습니다. 최종 틀에서 4 개의 계층 (차원)이 식별되었으며, 목표와 프로그램과 동일한 수준으로 배치되었습니다. 이는 지원, 문서화, 개선 및 회계입니다.

Comparing the frameworks the dimension Goals is a central in both. Next, the four elements from the initial framework—Collecting, Combining, Reporting, and Decision Taking—are closely related activities that are represented in one dimension in the new framework, named Programme in Action. With the exception of some changes in defini- tion, the two frameworks are similar in this respect. In contrast, the analysis yielded a huge amount of information on Quality Control. It appeared that our first framework did not do justice to the diversity in activities related to quality and the importance the experts placed on this issue. Quality turned out to be multi-layered and integrated with Goals and the Programme in Action in stead of a single element at the end of the process. In the final framework four layers (dimensions) were identified, which were placed on the same level as goals and programme in action. These are supporting, documenting, improving, and accounting.



목표

Goals


전문가들은 일반적으로 아이디어와 제안을 특정 프로그램 목표에 연결하여 목표가 토론을 지배했습니다.

Goals dominated the discussions, with experts typically linking ideas and suggestions to specific programme goals.


목표는 초기 프레임 워크의 일부이기도 하지만 다른 프로그램 요소에 대한 거의 모든 논의에서 예상치 못한 중심성에 시달렸습니다. 분명히, 이러한 요소들을 평가의 목표와 분리하여 고려하는 것은 불가능했습니다.

Although goals were also part of our initial framework, we were struck by their unexpected centrality in almost every discussion on the other programme elements. Apparently, it was impossible to consider these elements in isolation from the goals of the assessment.


교육 개념 (예 : 전통 교육, 문제 기반 학습) 또는 평가의 특정 기능 (예 : 학습 도구, 라이센싱 결정)에 관계없이 평가 프로그램의 품질은 목적 적합성fitness for purpose 측면에서 틀을 둡니다. 이는 명확하게 정의 된 프로그램 목표가 고품질 프로그램의 전제 조건임을 의미합니다.

Regardless of educational concept (e.g. traditional education, problem-based learning) or the specific function of assessment (e.g. learning tool, licensing decisions), the quality of assessment programmes was framed in terms of fitness for purpose. This implies that clearly defined programme goals are prerequisite for high-quality programmes.




실제로 진행되는 프로그램

Programme in action


포커스 그룹 토의는 주로 실행중인 프로그램이나 실행중인 평가 프로그램이 최소한으로 요구되는 모든 활동에 중점을 두었습니다. 여기에는 정보 수집에서 해당 정보를 기반으로 취하는 행동까지 포함됩니다.

The focus group discussions focused predominantly on Programme in Action or—in other words—on all the activities minimally required to have a running assessment programme. These activities encompass activities ranging from collecting information to taking action based on that information.


초기 프레임 워크의 요소와 유사한 새로운 주제는 사실상 모든 평가 프로그램의 핵심 활동으로 간주되는 정보, 보고 및 의사 결정을 결합하여 정보를 수집하는 것이 었습니다.

Emerging themes that were similar to elements of the initial framework were collecting information, combining information, reporting, and decision making, which were regarded as core activities of virtually any assessment programme.


또 다른 공통적 인 문제는 정보의 출처가 많이 모아 지지만 시스템이 설정되어 있지 않아서 모두 [...] 통합되지 않고 수집 된 모든 자료를 고려하지 못한다는 것입니다. (P2)

Another common problem is that lots of sources of information are gathered but the system is not set up so that they are all considered […] they’re not integrating and considering all of the material that is gathered…(P2)


... 문제는 당신이 그것을 만들 수 있는가입니다, 그래서 당신은 한 곳에서 그것을 얻을 수 있고 당신은 그것을 각각에 관련시킬 수 있고 당신은 다른 것들의 중요성을 이해할 수 있고 당신은 판단에 도달 할 수 있습니다 [...]하지 마십시오. 부적절 할 때 결합해서는 안되는 것들을 부적절하게 결합해서는 안됩니다. (P6)

…the problem is how you can make it, so that you can get it in one place and that you can relate it to each and that you can understand the importance of different things and you can come to a judgment […] Don’t inappropriately combine things which shouldn’t be combined to force them together when they shouldn’t be. (P6)


하지만 ...이 정보를 보유하고 있거나 적절한 정보를 보유해야하는 이해 관계자를 고려해야하는 문제가 있습니다. 따라서 결코 제공하지 않는 방법이 아닙니다. (P1)

But … there is an issue … about considering which stakeholders need to have this information or appropriate to have this information, so it is not a way of never giving it out. (P1)


...하지만 모든 테스트가 모든 이해 관계자에게 피드백을 제공한다는 생각에 동의하지 않습니다. [Mod : 목표에 따라 다름] ... 테스트의 성격은 피드백에 크게 영향을받습니다. 주어진. (P2)

… but I don’t agree either with the idea that every test provides feedback to every stakeholder, that to me, no…[Mod: It’s depending on the goals]…the nature of the test will be greatly influenced by the feedback that will be given. (P2)



프로그램을 수행할 때, "실제적인 결과가 있고 학생들의 능력을 결정하는 데 필수적인" 핵심 활동에 중점을두고 있다. 실행 중은 활동을 수행하는 것이 평가에 필수 불가결하다는 것을 나타냅니다. 요약하면, 프로그램 활동의 네 가지 핵심 활동은 정보 수집, 정보 결합, 정보 가치 평가 및 행동 취하기입니다.

As Programme in Action focuses on core activities that have practical consequences and are essential to determine students’ abilities, it deserves extensive attention. In Action signifies that conducting the activities is indispensable for any assessment. In summary, the four core activities of Programme in Action are: Collecting Information, Combining Information, Valuing Information and Taking Action.


프로그램에 대한 지원

Supporting the programme


프로그램 활동의 요소가 평가 프로그램을 수립하기에 충분하지만 높은 표준을 보장 할 수는 없습니다. 다시 말해, 초기 프레임 워크에서 품질 관리와 관련된 것으로 분류 된 활동의 대부분은 활동중인 프로그램 (활동)을 지원하는 활동으로보다 적합하게 자격이 부여 된 것처럼 보입니다.


Although the elements of Programme in Action suffice to establish a programme of assessment, they cannot guarantee a high standard. In other words, a major part of the activities classified as relating to quality control in the initial framework appear to be qualified more appropriately as activities in support of the programme in action (activities).


두 가지 지원 관련 주제는 품질의 개념을 목적에 대한 적합성으로 보았다. 하나는 기술 지원으로 평가 자료의 품질에 기여합니다. 평가가 수행되기 전의 사전 행동 (예 : 항목 검토 패널, 교수진 개발)과 평가 후 모니터링 (예 : 심리 측정 및 기타 분석)이 구분됩니다. 평가의 퀄리티는 검사 항목 또는 요소가 요구되는 특성을 충족하는지 여부를 결정하는 review에 따라 다릅니다. 심리 측정 및 기타 분석은 평가의 품질을 결정하며, 개선을 위해 조치가 필요한지 여부를 결정하는 역할을합니다. 평가의 성공은 주로 사용자에 달려 있기 때문에 교수진 개발은 평가 프로그램의 품질을 향상시키는 데 중요합니다. 기술technical이라는 용어는 교육적으로 건전한 평가 시스템을 설계하고 수행하는 데 필요한 지식, 기술 및 태도를 포괄합니다.


Two support-related themes matched the concept of quality as fitness for purpose. One is technical support, contributing to the quality of assessment materials. A distinction was made between proactive activities before an assessment is conducted (e.g. item review panels, faculty development) and monitoring after the assessment (e.g. psychometric and other analyses). Test quality depends on review, which determines whether test items or elements meet the required characteristics. Psychometric and other analyses serve to determine the quality of an assessment and whether steps are needed to make improve- ments. As the success of an assessment depends largely on its users, faculty development is important to promote the quality of assessment programmes. The term technical also captures the knowledge, skills, and attitudes necessary for designing and conducting an educationally sound assessment system.


두 번째 지원과 관련된 주제는 이해 관계자의 조기 참여평가의 수용 가능성을 높이고 불공정 행위를 피하기위한 항소 절차를 시행하는 것을 목표로하는 정치 및 법률 지원에 관한 것입니다. 수용 가능성이 없다면 지원은 고품질을 달성하기에 불충분 할 수 있습니다. 평가 프로그램의 설계에 이해 관계자가 참여하면 독창적인 아이디어의 투입을 촉진 할뿐만 아니라 실행을 위한 적합성을 보장합니다. 이해 관계자에게 프로그램 소유권을 부여함으로써 지원을 얻지 못하면 목표를 달성하기가 어렵습니다. 국가 또는 지역의 법적 고려 사항과 관련된 문제도 고려해야하며 프로그램 설계의 자유도에 영향을 미칠 수 있습니다.


The second support-related theme concerned political and legal support, targeted at increasing the acceptability of the assessment by early involvement of stakeholders and by putting in place an appeal procedure to avoid unfair conduct. Without acceptability, support will likely be insufficient to achieve high quality. Stakeholder involvement in the design of assessment programmes not only promotes input of creative ideas, but also ensures a certain fitness for practice. It can give stakeholders a sense of ownership of the programme, thereby gaining their support, without which goals can remain elusive. Issues related to (inter)national or local legal considerations need to be considered too and can influence the degrees of freedom in programme design.


프로그램 내용의 문서화

Documenting the programme


평가 문서화에는 두 가지 목적이 있습니다. 

    • 첫째, 문서화는 프로그램 최적화를 위한 주기적 시스템을 허용함으로써 조직의 학습을 용이하게합니다. 

    • 둘째, 프로그램의 투명성과 투명성을 향상시킵니다.

Documenting assessment serves two purposes. 

    • Firstly, documentation will facilitate learning of the organisation by allowing the cyclic system of optimising the programme in action to function properly. 

    • Secondly, it enhances the clarity and transparency of the programme.


따라서 책임, 권리, 의무, 규칙 및 규정을 포함하여 프로그램을 지원하고 프로그램을 지원하는 모든 요소는 평가 절차가 모호하지 않고 방어가 가능하도록 기록되어야 합니다. 이러한 측면에서 3 가지 요소가 특별히주의를 기울일 필요가 있습니다.

Thus all the elements of programme in action and supporting the programme, including responsibilities, rights, obligations, rules, and regulations, must be recorded to ensure that the assessment process is unambiguous and defensible. Three elements deserve special attention in this respect.


평가 프로그램은 공백 상태에서 작동하는 것이 아니다. 

따라서 첫 번째 요소, 프로그램의 (가상) 학습 환경 및 컨텍스트를 다루는 것이 매우 중요합니다.

Because assessment programmes do not function in a vacuum, it is of vital importance to address the first element, the (virtual) learning environment and context of a pro- gramme,


평가 프로그램의 내용과 적용 가능성을 명확히 기술해야한다.

The context and applicability of an assessment programme have to be clearly described.



둘째, 규칙 및 규정은 이해 관계자가 평가의 목적 및 프로그램 실행 및 프로그램 지원과 관련하여 모든 이해 관계자의 권리 및 의무를 검토 할 수있는 참조를 설정합니다. 

    • 종종 평가가 수행되는 조건과 이해 관계자에 대한 특정 요구가 규칙에 포착 될 수 있습니다. 

    • 규정은 특정 (표준) 상황에서 취할 결과와 행동을 설명합니다. 

    • 책임은 명확하게 정의되어 프로그램의 모든 레벨에 할당 될 수 있으므로, 오류나 실수가 발생한 경우 적절한 사람에게 접근 할 수 있습니다

Secondly, rules and regulations, establishes a reference for stakeholders to review the purpose of the assessment and the rights and duties of all stakeholders in relation to programme in action and supporting the programme. 

    • Often the conditions under which the assessment is to be conducted and specific demands on stakeholders can be captured in rules. 

    • Regulations describe the consequences and actions to be taken in specific (standard) situations. 

    • Responsibilities can be clearly defined and allocated on all levels of the pro- gramme, so that the proper person is approached in cases of errors or mistakes.


내용은 평가 목표와 밀접하게 관련되어 있으므로 나중에 참조 할 수 있도록 기록해야합니다. 따라서 세 번째 요소 인 청사진 (blueprinting)은 콘텐츠를 프로그램과 프로그램에 사용되는 도구로 매핑하는 도구입니다. 이와 관련하여 정보 수집과 관련된 설계 원칙과 밀접하게 관련되어 있습니다. 청사진은 또한 도메인을 효율적으로 샘플링하는 도구로 간주 될 수 있습니다.

Because content is strongly related to assessment goals, it should however be recorded for future reference. So the third element, blueprinting, is a tool to map content to the programme and the instruments to be used in the programme. In this respect, it is strongly tied to the design principles relating to information collecting. Blueprinting can also be regarded as a tool to sample the domain efficiently.


프로그램 개선

Improving the programme


대부분의 개선 활동에는 문제가있는 측면을 파악하기 위해 프로그램을 면밀히 평가하기 위한 연구 개발이 필요합니다. 그러나 데이터 수집에서 중단되어서는 안되며, 진단 된 문제를 해결하기 위한 조치를 실제로 구현해서 loop을 close해야 한다.

Most improvement activities involve research and development aimed at careful evaluation of the programme to ascertain problematic aspects. It is imperative, however, that the evaluation loop should not stop at data gathering: it must be closed by the actual implementation of measures to address diagnosed problems.


프로그램에서 문제를 해결하기 위한 조치를 제외하고 정치적 변화 또는 새로운 과학적 통찰력으로 인해 개선이 이루어질 수 있습니다. 개선과 관련하여 수립 된 개념은 변화관리로서, 변화에 대한 절차와 변화에 대한 잠재적 저항에 대처하기위한 활동으로 구성된다. 변화의 (정치적) 수용은 프로그램의 (일부분의) 변화를 의미합니다.

Apart from measures to solve problems in a programme, political change or new sci- entific insights can also trigger improvement. A concept that cropped up in relation to improvement was change management, comprising procedures for change and activities to cope with potential resistance to change. (Political) acceptance of changes refers to changes in (parts of) the programme.



프로그램에 대한 설명

Accounting for the programme


프레임 워크의 이전 차원은 평가 프로그램을 담당하는 기관 또는 조직의 내부 측면과 관련이 있지만, Accounting for the programme는 공공적 책임에 대한 요구 증가와 관련이 있습니다. 이 차원에서 활동의 목적은 활동중인 프로그램의 현재 관행을 방어하고, 프로그램 목표의 중요성에 비추어 목표를 충족하였음을 입증하는 것입니다.

While the previous dimensions of the framework related to internal aspects of the insti- tution or organisation responsible for the assessment programme, Accounting for the programme relates to the increasing demand for public accountability. The purpose of activities in this dimension is to defend the current practices of the programme in action and demonstrate that goals are met in light of the overarching programme goals.


Accounting 활동의 네 가지 주요 그룹을 구별 할 수 있습니다. 

Four major groups of accounting activities can be distinguished.


전문가들은 과학적 연구의 필요성을 확인했으며, 종종 평가 활동에 대한 불확실성을 연구 결과의 결여로 돌리고 증거 기반 실습을위한 의학의 중요성에 부합하는 확실한 증거로 사례를 지원하기위한 연구를 요구했습니다.

 The experts identified a need for scientific research, frequently attributing uncertainty about assessment activities to a lack of research findings and calling for research to support practices with sound evidence, which is in line with the prominence in medicine of the drive for evidence-based practice.


책임성은 또한 평가 프로그램에 대한 외부 검토가 필요합니다. 일반적인 방법은 외부 전문가의 외부 검토로, 프로그램에 대한 정보를 판단하고 경우에 따라 정보를 확인하고 지역 이해 관계자의 견해를 듣기 위해 기관을 방문합니다

Accountability also requires external review of programmes of assessment. A common method is external review by outside experts, who judge information on the programme and in some cases visit an institution to verify information and hear the views of local stakeholders.


평가 프로그램은 외부 이해 관계자의 요구와 희망에 따라 형성됩니다. 평가 프로그램은 진공상태에서 존재하는 것이 아니기 때문에, 정치적 및 법적 요구 사항에 따라 평가 프로그램의 일부분 (설계의 일부)을 설계하고 고려해야하는 경우가 종종 있습니다.

Assessment programmes are also shaped by the needs and wishes of external stake- holders. As assessment programmes do not exist within a vacuum, political and legal requirements often determine how (part of) the programme of assessment has to be (re)designed and accounted for.


모든 기관이나 조직에서 리소스는 제한적이다. 따라서 비용 효율성은 바람직한 목표로 간주됩니다. 평가 프로그램의 성공은 종종 자원의 가용성에 달려있다. 즉, 프로그램의 품질은 가용 자원의 한계에도 불구하고 목표를 달성 할 수있는 범위로 정의됩니다.

In every institution or organisation, resources—including those for assessment pro- grammes—are limited. Cost-effectiveness is regarded as a desirable goal. The success of assessment programmes often hinges on the avail- ability of resources. In other words, the quality of a programme is also defined in terms of the extent to which it enables the attainment of the goals, despite the boundaries of available resources.


고찰

Discussion


이 문서에서 설명한 모델은 프로그램 개발자 및 사용자를 위한 공통 언어 (공유 정신 모델)뿐만 아니라 디자인 원칙을 공식화 할 때 다루어야 할 차원에 대한보다 포괄적 인 그림을 제공하기 때문에 평가 프로그램을 구성하는 데 도움이 될 수 있다고 생각합니다. . 그러나 이것은 우리 연구 결과를 이전 연구와 연관시키는 것을 어렵게 만든다.

We believe the model described in this paper can help to frame programmes of assessment, because it not only provides a common language (shared mental model) for programme developers and users but also a more comprehensive picture of the dimensions to be covered when formulating design principles. However this makes it hard to relate our findings to previous research.


높은 수준의 평가와 그것을 달성하는 데 필요한 활동이 평가 프로그램의 목표에 의해서만 정의 될 수 있다는 것이 핵심입니다. 목표는 프로그램 설계의 기본 원칙이다. 목표는 평가와 관련된 모든 활동과 밀접하게 되어있으며, 퀄리티는 목표와 불가분의 관계가 있습니다.

A central concept was that high quality assessment and the activities needed to achieve it can only be defined in terms of the goals of an assessment programme. Goals underpin the guiding principle of programme design: fitness for purpose. Quality is inextricably interwoven with goals, which are closely tied to all activities related to assessment.


이 논증을 더 설명하고 뒷받침하기 위해 우리는 평가 프로그램의 품질이 그 목적에 비추어 판단 될 수 있다는 가장 중요한 그리고 아마도 가장 명백한 결과로 돌아 간다.

To explain and support this argument further we come back to our most important and maybe most obvious finding that quality of an assessment programme can only be judged in light of its purpose.



초기에는 discrete and sequential step을 정의하듯, 포커스 그룹을 안내 할 때 동일한 분리 된 접근 방법을 사용했습니다. 새로운 모델은 평가의 상호 연관성과 복잡성을 중요시하며 직관적으로 논리적 인 순서는 그대로 유지됩니다. 예를 들어 실행중인 프로그램 내에서 (처음 수집 한 다음 조합하고 값을 계산하고 마지막으로 조치를 취함)이 시퀀스는 디자인의 관점에서 역전 될 수 있습니다. 연구의 핵심은 평가 프로그램의 설계를위한 프레임 워크 내의 요소들의 상호 연관성입니다.

Initially we took a same isolated approach when drawing up our initial model to guide the focus groups, in which we defined discrete and sequential steps. The new model values interrelatedness and complexity of assessment, while undeniably, an intuitively logical sequence retains. For example within the programme in action (first collect, then combine and value, and finally take action), but this sequence can also be reversed, especially from the design point of view. Key is the interrelatedness of the elements within the framework for the design of assessment programmes that resulted from this study.







 2010 Aug;15(3):379-93. doi: 10.1007/s10459-009-9205-z. Epub 2009 Oct 10.

new framework for designing programmes of assessment.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. joost.dijkstra@educ.unimaas.nl

Abstract

Research on assessment in medical education has strongly focused on individual measurement instruments and their psychometric quality. Without detracting from the value of this research, such an approach is not sufficient to high quality assessment of competence as a whole. A programmatic approach is advocated which presupposes criteria for designing comprehensive assessment programmes and for assuring their quality. The paucity of research with relevance to programmatic assessment, and especially its development, prompted us to embark on a research project to develop design principles for programmes of assessment. We conducted focus group interviews to explore the experiences and views of nine assessment experts concerning good practices and new ideas about theoretical and practical issues in programmes of assessment. The discussion was analysed, mapping all aspects relevant for design onto a framework, which was iteratively adjusted to fit the data until saturation was reached. The overarching framework for designing programmes of assessment consists of six assessment programme dimensions: Goals, Programme in Action, Support, Documenting, Improving and Accounting. The model described in this paper can help to frame programmes of assessment; it not only provides a common language, but also a comprehensive picture of the dimensions to be covered when formulating design principles. It helps identifying areas concerning assessment in which ample research and development has been done. But, more importantly, it also helps to detect underserved areas. A guiding principle in design of assessment programmes is fitness for purpose. High quality assessment can only be defined in terms of its goals.

PMID:
 
19821042
 
PMCID:
 
PMC2940030
 
DOI:
 
10.1007/s10459-009-9205-z


+ Recent posts