시험의 교육적 가치: 어디까지 확장되는가? (Adv Health Sci Educ Theory Pract, 2018 )

The pedagogical value of testing: how far does it extend?

Kevin W. Eva1 · Colleen Brady2 · Marion Pearson2 · Katherine Seto2





도입

Introduction


"평가가 학습을 촉진한다"는 개념은 학습자의 학습 행동에 영향을 미칠 것으로 예상되는 시험을 통해 보건 전문 교육에서 널리 받아들여진다(Newble 2016). 이러한 현상에 대한 인식은 시험을 단순히 학습의 평가로 취급하는 것이 아니라 학습을 위한 평가를 의도적으로 사용하자는 요구와 병행하여 증가하고 있다(Suchwist and van der Vleuten 2011; Eva et al. 2016).

The notion that “assessment drives learning” is widely accepted in health professional education with tests being expected to influence learners’ study behaviour (Newble 2016). Awareness of this phenomenon is increasing in parallel with calls to deliberately use assessment for learning rather than treating tests simply as assessment of learning (Schuwirth and van der Vleuten 2011; Eva et al. 2016).


시험 강화 학습

Test‑enhanced learning


작업 시간을 통제하거나 연구만을 위한 그룹을 위해 왜곡하는 경우에도 학습 + 테스트 그룹은 일상적으로 더 많은 retention 상태를 보인다(Roediger 및 Karpicke 2006). 이러한 효과는 실험실 기반 연구, 실제 교실 및 임상 환경에서 관찰되었다(Dunlosky et al. 2013).

Even when time-on-task is controlled or skewed in favour of the Study-only groups, Study + Test groups routinely show greater retention (Roediger and Karpicke 2006). Such effects have been seen in labbased studies, real-world classrooms, and clinical settings (Dunlosky et al. 2013).


(시험의) 편익은 여러 시간적 맥락, 시험 형식 및 지식 영역에 걸쳐 발생하는 것으로 나타났다.

Benefits have been shown to occur across temporal contexts, test formats, and knowledge domains.


이러한 발견의 주된 설명은 기억에서 정보를 검색하면 메모리가 더 강해지므로 나중에 호출하고 적용할 가능성이 커진다는 것이다(Carpenter 2012). 만일 사실이라면, 기억에 관한 associative model은 시험을 보는 것의 장점이 모두 [시험을 본 자료에 대한 기억]은 물론 [관련 정보의 검색]도 용이하게 해야 한다고 제안할 것이다(Chan et al. 2006). 즉, 어떤 의미론적 개념semantic concept이 기억에서 활성화되면, 그 개념과 다른 개념 사이의 associative link도 각 메모리 트레이스의 강도가 증가함에 따라 비슷하게 활성화되어야 한다. 예를 들어, 'book = le livre'에 대해서 시험을 보면, 개념적으로 서로 연관되어 있는 read = lire 에 대한 기억도 용이하게 할 수 있다.

The dominant explanation of these findings is that retrieving information from memory makes the memory stronger, thereby increasing the likelihood of later recall and application (Carpenter 2012). If true, associative models of memory would suggest that the benefits of being tested should both improve the memorability of the material that was tested and facilitate the retrieval of related information (Chan et al. 2006). That is, if one semantic concept is activated in memory, then the associative links between that concept and other concepts should similarly become activated with the strength of each memory trace increasing. For example, being tested on book = le livre could facilitate memory for read = lire if both pairs were in the studied material because the words are conceptually associated with one another.


요컨대, 우리는 가능한 한 많은 것을 시험해야 하는가 아니면 일반화된 편익에 대한 기대와 함께 배우기 위해 도메인으로부터 전략적으로 샘플을 채취할 수 있는가?

In sum, do we need to test as much as possible or can we strategically sample from the domain to be learned with the expectation of generalized benefit?


회상-유도 촉진

Retrieval‑induced facilitation


몇몇 심리학 연구는 "회상 유도 촉진"이 발생할 수 있다는 것을 보여주었다. 즉, 학습한 정보의 하위집합에서 시험을 보는 것은 공부는 했지만 명시적으로 시험을 보지는 않은, 개념적으로 관련된 정보의 리콜도 용이하게 할 수 있다(Chan 2009).

Several psychology studies have indicated that “retrieval-induced facilitation” can occur. That is, being tested on a subset of studied information can facilitate recall of conceptually related information that was studied but not tested explicitly (Chan 2009).


그렇긴 하지만, 문헌에서 학습한 정보의 일부만을 테스트하는 것에 대한 우려를 불러일으키는 "회상-유도 망각"의 징후도 많이 있다.

That said, there are also a number of indications of “retrieval-induced forgetting” in the literature that raise concerns about testing only a subset of to-be-learned information.


즉, 운동 명칭의 일부 집합subset을 찾기 위한 노력은 나중에 회상 연습을 하지 않은 것에 비해 다른 스포츠 이름을 검색하는 참가자의 능력을 손상시킨다. 이는 시험-유도 학습에 모순되는 것으로, 즉 시험을 보는 것이 언제나 유익한 것은 아니며, 적절하게 사용하지 않을 경우 해로울 수 있다는 주장이다.

In other words, the effort to retrieve a subset of sports names impairs participants’ ability to later retrieve different sports names relative to had the retrieval practice not taken place. This is an important contradiction to the broadly made claims that tests enhance learning as it suggests testing is not universally beneficial and can be detrimental if not used appropriately.


대부분의 검색 회상-유도 망각 연구는 위에 언급한 스포츠 및 음료 단어 목록과 같은 비통합적 자극을 사용한다. 그러나, 검색 유도 촉진이 관찰된 경우, 자극은 서면 또는 비디오 형식으로 제시된 텍스트의 일관성 있는 구절이었다(예: Cranney et al.의 심리학 비디오 연구는 위에서 설명한다). 전형적인 강의실 기반 강의 자료는 이 연속체 중 어디에 위치하는가?

Most retrieval-induced forgetting studies use non-integrated stimuli such as the above-mentioned sports and drinks word lists. Where retrieval-induced facilitation has been observed, however, the stimuli have been coherent passages of text presented in written or video form (e.g., Cranney et al.’s psychobiology video study describe above). Where on this continuum does typical classroom-based lecture material lie?


목적

Purpose


본 연구에서는 시험 효과가 확장되는 정도를 조사하기 위해 결과 시험 항목이 학습 시험에서 마주친 항목과 어느 정도 관련이 있는지 조작하였다. 학습 단계 시험 항목에 대하여, 예후 시험 항목은 동일하거나 이전에 시험하지 않았다. 이전에 테스트되지 않은 항목은 연구된 자료에서 추출한 것이며, 다른 질병 상태의 맥락에서 유사한 치료법을 조사하거나, 보다 일반적인 제약 지식 영역(예: 기본 생리학 및 약물 특성)과 관련이 있다.

In this study, we manipulated the extent to which outcome test items were related to items encountered on a learning test to examine how far testing effects extend. Relative to learning-phase test items, outcome test items were either identical or not previously tested. Not previously tested items were drawn from the studied material, examined similar therapeutics in the context of different disease states, or related to more generic domains of pharmaceutical knowledge (e.g., basic physiology and drug characteristics).


이 두 가지 범주의 질문은 시험이 학습자가 개입과 결과 사이의 자료를 검색(또는 학습)하는 데 더 많은 시간을 할애할 수 있다는 가능성에 기초하여 포함되었으며, 이는 연구 자료에 포함되지 않은 관련 치료 정보를 더 쉽게 접할 수 있다. 시험 효과가 어느 정도까지 일반화되는지 이해하면 교육자가 학습 개입을 위해 보다 전략적으로 평가를 계획할 수 있다.

These latter two categories of questions were included based on the possibility that testing might encourage learners to spend more time searching for (or studying) the material between intervention and outcome, which might lead them to more readily encounter related therapeutic information that was not included in the study material. Understanding the extent to which testing effects generalize will enable educators to more strategically plan assessment for learning interventions.


방법

Method


맥락

Context


Four of the six tutorial groups were then chosen (based on there being no formal class time immediately after their regularly scheduled tutorial) and randomly assigned to the Study Only or Study + Test conditions to prevent contamination of the intervention within tutorial group.


자료

Material


각 슬라이드에는 대학교 강의 자료에 대한 일반적인 3-7개의 포인트 폼(즉, 벌거벗은) 노트가 포함되어 있었다(그림 참조). 예를 들어 1).

Each slide contained three to seven point-form (i.e., bulleted) notes typical of university lecture materials (see Fig. 1 for an example).




관련 전문 지식을 갖춘 두 명의 약학 교육을 받은 공동 연구자가 슬라이드를 사용하여 결과 테스트(Box 1)를 위한 40개의 객관식 질문을 작성했다.

Two Pharmacy-trained co-investigators with relevant expertise used the slides to generate 40 multiple choice questions for the outcome test (Box 1).



    • 슬라이드 덱의 시작 부분에 약술된 목표를 사용하고 학습 자료 전반에 걸쳐 적절한 균형을 보장하면서 슬라이드의 치료 내용을 기반으로 10개 질문 세트를 작성했다. 이 10개의 질문은 Study + Test 조건 참가자에게 전달된 학습 단계 테스트를 구성했다. 또한, 이러한 질문들은 해당 그룹에 대한 연구의 두 단계(즉, 질문 내용 또는 형식에 대한 변경 없이)에서 동일한 것으로 나타난다는 점에서 결과 테스트에 "반복" 질문으로 포함되었다. 

    • 10개 질문("시험은 하지 않았지만" 항목)의 두 번째 집합은 연구된 자료에서 비슷하게 초점을 맞추고 도출했지만 학습 단계 테스트에서는 사용되지 않았다. 

    • 10개 질문("연구되지 않은 치료" 항목) 중 세 번째 질문은 연구되지 않은 의학적 조건(예: 알레르기 비염 및 출혈 치료)에서 학습 테스트 질문에서 다룬 것과 유사한 치료 지식에 초점을 맞추었다. 

    • 최종 10개 질문("일반 의약품 지식 미연구" 항목)은 학생들이 아직 커리큘럼에서 접하지 못한 약학과 약학과 및 약학 과목에서 뽑았는데, 이 과목은 기초 생리학, 약물 특성 등 연구 자료에서 볼 수 없었던 보다 일반적인 지식에 초점을 맞춘 것이었다.

    • One set of 10 of questions was created based on the therapeutics content in the slides, using the objectives outlined at the start of the slide deck and ensuring an appropriate balance across the learning material. These 10 questions formed the learning-phase test that was delivered to Study + Test condition participants. In addition, they were included in the outcome test as “Repeat” questions given that they were presented identically in both phases of the study for that group (i.e., with no changes made to the question content or format). 

    • A second set of 10 questions (“Studied but not tested” items) were similarly focused and drawn from the studied material, but had not been used during the learning-phase test. 

    • A third set of 10 questions (“Not studied therapeutics” items) focused on therapeutic knowledge similar to that covered in the learning test questions in the context of medical conditions that were not studied (e.g., allergic rhinitis and hemorrhoid treatments). 

    • The final set of 10 questions (“Not studied generic pharmaceutical knowledge” items) was drawn from pharmacology and pharmaceutics courses students had not yet encountered in the curriculum that focused on more generic knowledge such as basic physiology and drug characteristics that were, again, not in the study material.


개입과 절차

Intervention and procedure


이 연구는 전체 튜토리얼 그룹에 걸친 프레젠테이션의 일관성을 보장하기 위해 모든 자료와 지침을 문서로 제공하여 두 단계로 진행되었다. 학습 단계 동안 모든 학생들에게 "만약 당신이 (GERD와 PUD)에서 즉시 테스트를 받아야 한다면, 몇 퍼센트의 질문이 정확하게 대답될 것으로 예상하는가?"라고 먼저 추정하라는 질문을 받았다.

The study took place in two phases with all materials and instructions being delivered on paper to ensure consistency of presentation across tutorial group. During the learning phase, all students were first asked to estimate “If you were to be tested on (GERD and PUD) immediately, what percentage of questions would you anticipate answering correctly?”


분석

Analysis



결과

Results


참가자

Participants


Table 1 offers a summary of the groups’ baseline characteristics.


학습 시기

Learning phase


Both groups provided equal estimates regarding the amount of material they already knew (58.3 vs. 58.6% for the Study Only and Study + Test groups, respectively; t = 0.1, p > 0.9) and the amount of material they expected to know after the learning phase (78.3 vs. 78.8%, respectively; t = 0.2, p > 0.8). After 20 min of study time the Study + Test group answered an average of 4.4/10 questions correctly (SD = 1.2).


시험 시기 퍼포먼스 추정

Test phase performance estimates


Two weeks after the learning phase, prior to completing the outcome test, both groups provided similar estimates of how much of the material they knew prior to participating (56.0 vs. 61.4% for the Study Only and Study + Test groups, respectively; t = 0.9, p > 0.3).


시험 시기 퍼포먼스(실제) 

Test phase performance


Of primary interest to the research question posed, Table 2 illustrates the mean performance achieved by each group for all four item types included in the outcome test.


시험 후 추정

Post‑study estimates




고찰

Discussion


이 연구에 포함된 결과 테스트에서 항목 유형을 정리하면

  • (a) 전통적인 시험 강화 학습 효과를 복제하였다(학습 단계에서 반복된 항목을 사용하여). 

  • (b) 관찰된 차이가 무작위화 실패에서 기인할 가능성이 없음을 확인하였다

  • (c) 시험의 이점이 [시험한 특정 지식에 대한 기억력]을 넘어서 확장됨을 입증하였다. ("공부는 하였지만 시험은 보지 않은" 항목에서 회상-유도 촉진 효과를 관찰함).

The manipulation of item types on the outcome test included in this study allowed us to 

  • (a) replicate conventional test-enhanced learning effects (through the use of items that were repeated from the learning phase), 

  • (b) confirm that the differences observed were unlikely to derive from a failure of randomization and 

  • (c) demonstrate that the benefits of testing do extend beyond benefits to memory for the specific knowledge that was tested (given the observation of a retrieval-induced facilitation effect in the “studied but not tested” items).


시험-강화 학습의 기전

The mechanisms of test‑enhanced learning


사실 '시험'이 교육적 편익이 있음을 보여준 다양한 방법은 [학습 자료 회상을 위한 노력]이 [시험 그 자체]보다 이러한 주요 결정요인이라는 것을 암시한다(라센과 도른 2013 참조). 결과적으로, '회상-강화 학습'이라는 말이 '시험 강화 학습'보다 더 유행하고 있지만, 우리는 이 논문에서 후자의 용어를 유지해왔다. 

The variety of ways in which ‘testing’ has revealed pedagogical benefits, in fact, suggests that effortful retrieval of studied material is the key determinant of the phenomenon rather than testing per se (see Larsen and Dornan 2013). Consequently, the phrase ‘retrieval-enhanced learning’ is now more in vogue than ‘test-enhanced learning’ but we have maintained the latter terminology in this paper 


시험을 치른 후, [학생들은 시험 관련 정보를 찾아보도록 명시적으로 지시 받았는지 여부와 관계 없이] 자신 있게 대답하지 못한 질문에 대한 답을 검색하는 경향이 있다. 따라서 Study Only(학습 단독) 그룹의 참가자들이 Study + Test(학습+시험) 그룹의 참가자들보다 [학습 단계 이후에 학습한 자료에 대해 생각하지 않았다]고 보고한 것은 놀라운 일이 아니었다.

after being tested, students are likely to search for answers to questions they did not feel confident answering regardless of whether or not they are explicitly instructed to seek test-relevant information. It was not surprising, therefore, that participants in the Study Only group were more likely than those in the Study + Test group to report they did not think about the studied material after the learning phase.


회상-강화 촉진의 기전

The mechanisms of retrieval‑induced facilitation


이러한 관찰은 상당히 긍정적인 실제적인 의미를 지니는데, 왜냐하면 시험을 중요한 교육적 개입으로 사용하기 위해서 굳이 학생들이 공부하고 있는 자료의 모든 가능한 측면에 대해 퀴즈를 낼 필요가 없다는 것을 시사하기 때문이다. 이는 좋은 시험 문제를 만드는 것은 상당한 자원을 소모하는 것이며, 시험에 동반되는 학습자 측의 평가 피로로 인한 위험을 피하는 것이 중요하기 때문이다.

These observations yield considerable positive practical implications as they suggest that one need not quiz students on every possible aspect of the material they are studying to have some hope of using testing as a valuable pedagogical intervention. This is beneficial both because the generation (and completion of) good test questions is resource consuming and because it is important to avoid the perils that accompany assessment fatigue on the part of learners.


Chan(2009)은 회상-유도 촉진에 대해 설명한다. 그는 산문prose 기반 자료(회상-기반 망각을 보여주는 "단어 목록"과 대비하여)를 독립적인 정보의 수집이라기 보다는 "아이디어 단위"로 생각되어야 한다고 말하였다. 즉, 어떤 사람이 새로운 정보를 접하게 되면, 그 내용은 문자 그대로(즉, 피상적인 단어 집합) 표상되며, 동시에 상황적으로도(즉, 문맥에서 단어의 의미를 더 깊이 이해함)표상된다. 

Chan (2009) accounts for the retrieval-induced facilitation that he observed upon presenting integrated study material to participants by suggesting that prose-based materials (in contrast to word lists, which revealed retrieval-based forgetting) should be thought of as “idea units” rather than as a collection of independent pieces of information. When one encounters new information the material is mentally represented both literally (i.e., as a superficial set of words) and situationally (i.e., with deeper understanding of the meaning of the words in context). 


그와 같은 "의미"는 정보를 읽거나 듣고 있는 개인이 갖고 있는 기존의 정신 모델을 갱신하거나 새로운 정신 모델을 만드는 방식으로 기존의 지식과 상호작용한다. Chan은 정보가 통합된 방식으로 제시될 때, 기존의 정신 모델을 업데이트하는 것이 더 쉽다고 주장하며, 따라서 모델 간의 간섭을 줄여주며, 검색으로 인한 촉진이 발생할 가능성을 더 높여준다.

That meaning interacts with pre-existing knowledge in a way that requires the individual who is reading or listening to the information to either update an existing mental model or create a new one. When information is presented in an integrated manner, Chan argues, it is easier to update existing mental models, thereby reducing interference between models and making retrieval-induced facilitation more likely to occur.


실무적으로 이러한 이해의 함축은 두 가지로 구분된다. 

In practical terms, the implications of this understanding are twofold: 


(1) 생리적 문제가 어떻게 특정 증상을 유도하고 어떻게 특정 치료법으로 극복할 수 있는지와 같은 [통합된 자료]를 학습자가 이해할 수 있도록 도와주려고 한다면, 

[학습자가 이해해야 하는 다양한 아이디어들 중 subsample을 의도적으로 시험문제로 선택함으로써] 검색 유도 촉진의 이점을 최적화할 수 있다.

(1) When we strive to help learners understand material that is integrated, such as how physiological problems induce particular symptoms and might be overcome with particular therapies, then we might optimize the benefits of retrieval-induced facilitation by deliberately selecting a subsample of possible test questions that represent the variety of idea units we need learners to understand;


(2) 다양한 해부학적 구조의 이름 기억과 같이 통합되지 않은 자료를 학습자가 이해할 수 있도록 도와주려고 한다면, 

본 연구에서 관찰된 검색 유도 촉진이 그러한 맥락에 일반화된다고 가정할 수 없다. 사실, 그러한 상황에서는 [회상-유도 망각]이 발생할 것이라는 것이 이론적으로 가능하다. 결과적으로, 교육자들은 [자료가 덜 통합되었을 때에는] 학습해야 하는 모든 범위의 자료에 대해 시험을 보는 것에 대해 좀더 신중해야 할 필요가 있을 수 있다. 그러나, 다시, 이 가설의 시험은 여전히 행해져야 한다.

(2) When we strive to help learners understand material that is not integrated, such as memorizing the names of various anatomical structures, 

we cannot assume that the retrieval-induced facilitation observed in this study will generalize to such contexts. In fact, in such situations it remains theoretically plausible (if not probable given Chan’s findings) that retrieval-induced forgetting would be the rule. As a result, educators may still need to be more deliberate about testing as much of the entire range of material to be learned as possible if the material is less integrated. Again, however, testing of this hypothesis remains to be carried out.


회상 유도 촉진은 어디까지 발생하는가?

How far does retrieval‑induced facilitation extend?


비록 주로 통제조건으로 포함되었지만, 시험의 이점이 [학습자료에 포함되지 않았던] 치료적 측면에 대한 항목까지는 확장되지 않았다는 것은 주목할 만하다.

Although it was primarily included as a control condition, it is noteworthy that the benefit of testing did not extend to items focused on therapeutic aspects of practice that were not included in the studied material.


강점과 한계

Strengths and limitations



결론

Conclusions


의도적으로 형성평가 시험문제를 우선순위를 두어 선택해야 한다.

students will benefit from educators deliberately prioritizing the selection of formative test questions that offer a heterogeneous sampling of the domain to be learned in a manner that challenges students to seek answers to the questions they encounter.


Barnett, S. M., & Ceci, S. J. (2002). When and where do we apply what we learn? A taxonomy for far transfer. Psychological Bulletin, 128(4), 612–637.


Eva, K., & Regehr, G. (2010). Exploring the divergence between self-assessment and self-monitoring. Advances in Health Sciences Education, 16(3), 311–329.


Larsen, D. P., & Dornan, T. (2013). Quizzes and conversations: Exploring the role of retrieval in medical education. Medical Education, 47(12), 1236–1241. XXX


Mylopoulos, M., Brydges, R., Woods, N. N., Manzone, J., & Schwartz, D. L. (2016). Preparation for future learning: A missing competency in health professions education? Medical Education, 50(1), 115–123.









 2018 Oct;23(4):803-816. doi: 10.1007/s10459-018-9831-4. Epub 2018 May 26.

The pedagogical value of testing: how far does it extend?

Author information

1
Department of Medicine, Centre for Health Education Scholarship, University of British Columbia, 429K - 2194 Health Sciences Mall, Vancouver, BC, V6T 1Z3, Canada. kevin.eva@ubc.ca.
2
Faculty of Pharmaceutical Sciences, University of British Columbia, Vancouver, BC, Canada.

Abstract

Information is generally more memorable after it is studied and tested than when it is only studied. One must be cautious to use this phenomenon strategically, however, due to uncertainty about whether testing improves memorability for only tested material, facilitates learning of related non-tested content, or inhibits memory of non-tested material. 52 second-year Pharmacy students were asked to study therapeutic aspects of gastroesophageal reflux disease and peptic ulcer disease. One group was given 30 min to study. Another was given 20 min to study and 10 min to complete a 10-item test. Two weeks later a 40-item test was delivered to both groups that contained (a) the 10 learning phase questions, (b) 10 new questions drawn from the studied material, (c) 10 new questions about therapeutics in different disease states, and (d) 10 new questions drawn from more general pharmaceutical knowledge (e.g., basic physiology and drug characteristics). Moderate to large retrieval-enhanced learning effects were observed for both questions about material that was tested (22.9% difference in scores, p < 0.05, d = 0.60) and questions about material that was studied without being tested (18.9% difference, p < 0.05, d = 0.75). Such effects were not observed for questions that were not part of the study material: therapeutic questions that addressed different disease states (1.8% difference, p > 0.7, d = 0.08) or generic pharmaceutical questions (7.4% difference, p > 0.2, d = 0.32). Being tested made it more likely that students would report reviewing the material after the initial learning session, but such reports were not associated with better test performance. The benefit of mentally retrieving information from studied material appears to facilitate the retrieval of information that was studied without being tested. Such generalization of the benefit of testing can increase the flexibility of test-based pedagogic interventions.

KEYWORDS:

Assessment-for-learning; Retrieval-enhanced learning; Retrieval-induced facilitation; Test-enhanced learning

PMID:
 
29804269
 
DOI:
 
10.1007/s10459-018-9831-4


+ Recent posts