생성형 인공지능의 시대에 평가를 다시 생각하기 (Med Educ, 2023)
Rethinking assessment in response to generative artificial intelligence
Jacob Pearce | Neville Chiavaroli

 

시험에서 전자 감별 진단과 같은 평가 중 의사 결정 지원 도구의 사용은1 현재 기술이 평가 관행을 어떻게 변화시키고 있는지에 관해서는 빙산의 일각에 불과합니다. 이렇게 말하는 이유는 인공 지능(AI) 개발이 혁신적 단계에 도달한 것으로 보이기 때문입니다. 이른바 제너레이티브 AI가 여기에 있습니다. OpenAI의 ChatGPT가 등장했고, 다른 도구들도 속속 등장하고 있습니다. ChatGPT-3는 다양한 프롬프트와 질문에 대한 자연어 응답을 처리하고 생성하도록 설계된 언어 모델입니다. 이 모델은 약 45테라바이트의 텍스트 또는 수천억 개의 단어에 해당하는 방대한 양의 데이터로 학습되었습니다. 적어도 우리가 물었을 때 ChatGPT는 이렇게 대답했습니다. 그리고 우리 모두가 이 모든 것이 교육과 평가에 미치는 영향을 이해하려고 노력하고 있을 때, 이미지를 '보고' 처리할 수 있는 멀티모달 ChatGPT-4가 출시되어 이 기술이 얼마나 빠르게 발전하고 있는지를 보여주고 있습니다. 
The use of decision-making support tools during assessments, such as electronic differential diagnosis in examinations,1 is just the tip of the iceberg when it comes to how technology is currently changing assessment practice. We say this, because it appears we have reached a transformative stage in the development of artificial intelligence (AI). So-called generative AI is here. OpenAI's ChatGPT has burst onto the scene, and other tools are coming. ChatGPT-3 is a language model designed to process and generate natural language responses to a wide range of prompts and questions. It was trained on a massive amount data, corresponding to approximately 45 terabytes of text, or hundreds of billions of words. At least this is what ChatGPT told us when we asked. And just as we are all trying to understand the ramifications of all this for education and assessment, the multimodal ChatGPT-4 has been released that can ‘see’ and process images, highlighting just how fast this technology is advancing.

제너레이티브 AI는 학생과 연수생을 평가하는 방식에 잠재적으로 급진적이고 중요한 영향을 미칠 수 있습니다. 한 AI 도구는 이미 미국 의사 면허 시험에 합격한 것으로 나타났습니다.2,3 또 다른 도구는 방사선 사진 판독과 관련된 왕립 방사선사 대학 시험에서 상당히 우수한 성적을 거두었습니다.4 더욱 중요한 것은 출시 당시 ChatGPT-4가 잘 알려진 다양한 고난도 시험에서 상위 10%에 드는 성적을 거둔 것으로 나타났습니다. 이러한 최신 세대의 AI가 평가 과제에 설득력 있게 응답하는 능력은 인상적입니다. 따라서 우리는 더 이상 학생의 학습과 역량을 입증하기 위해 감독 없는 평가와 제출된 '인공물'에 의존할 수 없게 되었습니다. 이로 인해 교육자, 코스 코디네이터 및 커리큘럼 설계자에게 장기적으로 많은 요구가 제기되고 있으며, 평가 접근 방식에 대해 다시 생각해야 합니다. 이는 분명 지필 평가 과제의 역할과 위치에 의문을 제기하며, 지필 평가가 어떤 가치를 제공하고 있으며 앞으로도 계속 제공할 것인지 재고하게 만듭니다. 
Generative AI has potentially radical and significant implications for the way we assess our students and trainees. One AI tool has already shown to be capable of passing the US Medical Licensing Exam.2, 3 Another tool has performed reasonably well in a Royal College of Radiologists examination, involving the interpretation of radiographs.4 Even more significantly, at its launch, ChatGPT-4 was shown to have performed in the top 10% on a range of well-known high-stakes examinations. The ability of these latest generations of AI to respond convincingly to assessment tasks is impressive. Consequently, we can no longer rely on non-invigilated assessments and submitted ‘artefacts’ to demonstrate student learning and competence. This is bringing many long-term demands on educators, course coordinators and curriculum designers, forcing us to rethink assessment approaches. It certainly calls into question the role and place of written assessment tasks and makes us reconsider what value they offer or will continue to offer.

Generative AI has potentially radical and significant implications for the way we assess our students and trainees.



앞으로 우리는 '지원형' 평가와 '비지원형' 평가 사이에 중요한 차이가 있음을 알게 되었습니다. 

  • 전자는 응시자가 교과서, 인터넷, 의사 결정 지원 도구1, 그리고 이제는 실제 임상 실습을 대표하는 제너레이티브 AI 모델 등 다양한 도구와 리소스를 활용할 수 있는 평가입니다.
  • 반면에 비보조 평가는 임상 지식과 추론의 독립적인(그리고 검증 가능한) 시연이 관련 역량의 필수 요소인 인증 또는 요약 맥락에서 이러한 리소스에 대한 접근 없이 학생과 연수생의 지식과 이해를 평가하고자 할 때를 말합니다.

Going forward, we see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

  • The former is assessment that allows the candidate to draw on tools and resources, including textbooks, the Internet, decision-making support tools1 and now, generative AI models—in many ways, representative of real-life clinical practice.
  • Unassisted assessment, on the other hand, refers to times when we may wish to assess our students' and trainees' knowledge and understanding without access to such resources, such as for certification or summative contexts when the independent (and verifiable) demonstration of clinical knowledge and reasoning is a necessary element of the relevant competencies.

We see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

 

인증 시험에서 인공지능의 성과는 인공지능의 놀라운 합격 능력만큼이나 해당 평가의 성격에 대해 많은 것을 말해줍니다. 우리는 평가에서 어떤 종류의 성과를 이끌어내고자 하는지에 대해 신중하게 생각해야 합니다. 시발드 등의 연구에서 알 수 있듯이, 전자 진단 소프트웨어를 사용하여 시험 수행을 '보조'한다고 해서 시험의 심리 측정적 특성이 반드시 훼손되는 것은 아닙니다.1 하지만 이러한 보조 수행을 통해 진정한 이해와 '노하우'(밀러의 용어로)5를 유추할 수 있을까요? 아마도 아닐 수도 있습니다. 보조 기술을 즉시 사용할 수 없는 경우를 상상할 수 있을 뿐만 아니라(그러나 여전히 감별 진단이 필요하기 때문에), 교육자들은 이해가 여전히 교수, 학습 및 평가의 중요한 요소임을 계속 상기시키기 때문입니다.6 진정한 이해는 사실을 암기하거나 데이터를 입력하거나 알고리즘을 따르는 것과는 달리 사고와 지식 적용에 어느 정도의 자율성을 필요로 합니다. 
The performance of AI on certification tests says as much about the nature of those assessments as it does about the remarkable capacity of AI to pass them. We need to think carefully about the kind of performance we want our assessments to elicit. As Sibbald et al's study shows, the use of electronic diagnosis software to ‘assist’ performance on exams does not necessarily undermine their psychometric properties.1 But can we infer genuine understanding and ‘knows how’ (in Miller's terms)5 from such assisted performance? Perhaps not. This is where there remains value in assessing learners' understanding through unassisted means, not just because we might envisage times when assistive technology is not immediately available (and yet differential diagnoses are still required), but because educators keep reminding us that understanding remains a crucial element of teaching, learning and assessment.6 Genuine understanding requires some degree of autonomy in thinking and application of knowledge, as opposed to reciting facts, entering data or following algorithms.

비보조 평가 상황에서는 구술 평가와 같은 구두 평가 방법이 중요한 역할을 할 수 있으며 이러한 높은 수준의 인지에 접근할 수 있는 강력한 수단을 제공할 수 있다고 주장합니다. 구술 평가 방법은 낮은 신뢰도, 표준화 부족, 평가자 편향 가능성 등의 이유로 한동안 많은 평가계에서 저평가되어 왔습니다.7 그러나 많은 평가 학자들이 지적했듯이 평가 형식의 가치 또는 '유용성'은 여러 가지 상반된 요소에 따라 달라집니다.8 특정 상황에서는 구술 평가의 본질적인 특성, 특히 직접적인 의사소통, 상호 작용 및 유연성 모드가 부각되어 비보조 평가에 특히 적합한 선택이 될 수 있습니다. 학습자의 이해도와 역량에 대한 직접적이고 검증 가능한 증거가 필요한 경우, 구두 평가 형식은 비교적 간단하고 매우 유용한 방법입니다. 
For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition. Oral assessment methods have been undervalued in many assessment circles for some time, in part due to their perceived poor reliability, lack of standardisation and potential for assessor bias.7 But as many assessment scholars have pointed out, the value or ‘utility’ of an assessment format depends on many different and competing factors.8 In certain circumstances, the intrinsic characteristics of oral assessment—in particular its mode of direct communication, interactivity and flexibility—come to the fore and make it a particularly apt choice for unassisted assessment. For those occasions when we need direct and verifiable evidence of our learners' understanding and competence, the oral assessment format is a relatively straightforward and highly useful method.

For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition.

최근 편리한 온라인 플랫폼을 통한 가상 평가의 증가와 활성화, 그리고 AI가 제기하는 비구술 평가 형식에 대한 새로운 도전에 따라, 우리는 구술 형식이 의학교육에서 매우 가치 있고 독특한 평가 형식으로서 '재활'되고 재수용될 때가 왔다고 생각합니다. 다른 평가 형식과 마찬가지로, 평가 설계자와 실무자는 구두 평가를 계획하고 설계할 때 다양한 유형의 프롬프트 관행을 명확히 하고 모든 이해관계자에게 이러한 형태의 평가를 가장 잘 운영하는 방법에 대해 교육하는 등 사려 깊은 태도를 보여야 합니다. 한 가지 주요 이점은 응시자의 답변을 실시간으로 확인할 수 있기 때문에 진정한 이해와 고차원적 사고에 대한 심층적인 조사가 가능하다는 점입니다. 이러한 시험관의 상호작용은 사려 깊은 설계와 적절한 교육을 통해 효과적으로 표준화할 수 있습니다.9, 10 최근 보다 명확한 가이드라인이 등장하면서 의학교육 평가에서 구두 형식의 보다 유효한 적용에 대한 지원이 이루어지고 있습니다.11, 12
With the recent increase and facilitation of virtual assessment through convenient online platforms, and the new challenge to non-invigilated assessment formats posed by AI, we think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format as a highly valuable and unique form of assessment in medical education. As with any assessment format, this requires that assessment designers and practitioners be thoughtful in planning and designing oral assessments, including clarifying the different types of prompting practices and educating all stakeholders on how to best operationalise this form of assessment. One major benefit is that since candidate responses can be clarified in real time, deep probing of genuine understanding and higher-order thinking is possible. Such examiner interaction can be standardised effectively with thoughtful design and appropriate training.9, 10 The recent emergence of clearer guidelines provides support for more valid application of the oral format in medical education assessment.11, 12

Think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format.


생성형 AI가 형성적 또는 총괄적 맥락에서 평가의 유효성이나 신뢰성을 위협할 필요는 없습니다. 오히려 보조 평가에 충실도와 뉘앙스를 더하는 동시에 비보조 평가에 더 큰 집중력과 목적의식을 부여할 수 있습니다. 보조 평가 내에서 생성형 AI의 역할과 가치는 더 자세히 살펴봐야 합니다. 이러한 도구의 유용성은 빠르게 분명해지고 있으며, 많은 사람들이 AI를 사용하여 학습을 비계화하는 방법을 올바르게 고려하고 있습니다. 보조 평가 작업에 AI를 활용하면 학습을 발전시키고, 오해와 감독을 식별하고, 문제 해결의 길을 제시하는 데 도움이 될 수 있습니다. 예를 들어, 의사가 일상적으로 휴대폰을 사용하여 임상 진료 지침을 참조하거나 문서 템플릿을 사용하여 보고서를 표준화하는 방식과 유사하게 AI를 확인 리소스 또는 텍스트 생성 도구로 사용할 수 있습니다. 보조 평가에 AI를 전략적으로 포함시키는 것의 다른 측면은 비보조 평가를 통해 판단, 평가 및 비판적 추론과 같은 전형적인 인간 기술의 평가에 더 중점을 둘 수 있는 기회입니다.13 
Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment. The role and value of generative AI within assisted assessments should be further explored. The usefulness of these tools is quickly becoming apparent, with many rightly considering how to use AI to scaffold learning. Building the use of AI into our assisted assessment tasks may advance learning, help identify misconceptions and oversight and suggest avenues for solutions to problems. For example, AI can be used as a confirmatory resource or text generation tool, akin to the way doctors routinely use their phones to consult clinical practice guidelines or standardise reports through the use of document templates. The other side of such strategic inclusion of AI in assisted assessment is the opportunity to place greater emphasis on the assessment of quintessential human skills, such as judgement, evaluation and critical reasoning through unassisted assessments.13

Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment.

제너레이티브 AI가 기존의 평가 관행을 즉각적으로 해체할 필요는 없지만, 맥락에서 평가의 목적에 더욱 집중하여 현재 우리가 시행하고 있는 평가에 대해 다시 생각해 볼 필요가 있습니다. 우선, 구술 평가 형식은 비보조 상황에서 평가의 인증 기능을 충족하는 데 중요한 역할을 할 수 있으므로 '재생reclaim'해야 한다고 제안합니다. 또한, 보조 작업이 합당한 평가 맥락에서 AI에 대한 접근도 포괄적인 평가 시스템의 일부로 수용해야 합니다.
Although generative AI does not warrant a reactive dissolution of established assessment practices, it does call for a rethinking of assessment as we currently practice it, with a sharpening focus on its purpose in context. Initially, we propose that the oral assessment format should be ‘reclaimed’ as it can play an important role in meeting the certification function of assessment in unassisted contexts. Further, access to AI in assessment contexts where assisted tasks make sense will also need to be embraced as part of a comprehensive assessment system.


 
Med Educ. 2023 Apr 12. doi: 10.1111/medu.15092. Online ahead of print.

Rethinking assessment in response to generative artificial intelligence

Affiliations collapse

Affiliation

1Tertiary Education, Australian Council for Educational Research, Camberwell, Victoria, Australia.

PMID: 37042389

DOI: 10.1111/medu.15092

No abstract available

+ Recent posts