Using Large Language Models to Generate Script Concordance Test in Medical Education: ChatGPT and Claude

Yavuz Selim Kıyak; Emre Emekli

doi:10.6018/edumed.636331

Autores/as

Yavuz Selim Kıyak Gazi University Faculty of Medicine https://orcid.org/0000-0002-5026-3234
Emre Emekli Department of Radiology, Faculty of Medicine, Eskişehir Osmangazi University, Eskişehir, Turkiye https://orcid.org/0000-0001-5989-1897

DOI: https://doi.org/10.6018/edumed.636331

Palabras clave: script concordance test, clinical reasoning, medical education, artificial intelligence, ChatGPT

Resumen

Nuestro objetivo fue determinar la calidad de los ítems de la Prueba de Concordancia de Guión (SCT) generada por IA (ChatGPT-4 y Claude 3) a través de un panel de expertos. Generamos ítems de SCT sobre radiología abdominal utilizando un mensaje complejo en chatbots de modelo de lenguaje grande (LLM) (ChatGPT-4 y Claude 3 (Sonnet) en abril de 2024) y evaluamos la calidad de los ítems a través de un panel de expertos de 16 radiólogos. El panel de expertos, que desconocía el origen de los ítems proporcionados sin modificaciones, respondió de forma independiente cada ítem y los evaluó utilizando 12 indicadores de calidad. El análisis de datos incluyó estadísticas descriptivas, gráficos de barras para comparar las respuestas con los formularios aceptados y un mapa de calor para mostrar el desempeño en términos de los indicadores de calidad. Los ítems de SCT generados por chatbots evalúan el razonamiento clínico en lugar de solo el recuerdo fáctico (ChatGPT: 92,50 %, Claude: 85,00 %). El mapa de calor indicó que los ítems eran generalmente aceptables, con la mayoría de las respuestas favorables en todos los indicadores de calidad (ChatGPT: 71,77 %, Claude: 64,23 %). La comparación de los gráficos de barras con formas aceptables e inaceptables reveló que el 73,33 % y el 53,33 % de las preguntas en los ítems pueden considerarse aceptables, respectivamente, para ChatGPT y Claude. El uso de LLM para generar ítems de SCT puede ser útil para los educadores médicos al reducir el tiempo y el esfuerzo necesarios. Aunque el mensaje proporciona un buen punto de partida, sigue siendo crucial revisar y modificar los ítems de SCT generados por IA antes de su uso educativo. El mensaje y el GPT personalizado, “Script Concordance Test Generator”, disponible en https://chatgpt.com/g/g-RlzW5xdc1-script-concordance-test-generator, pueden agilizar el desarrollo de ítems de SCT.

Descargas

Los datos de descargas todavía no están disponibles.

Métricas

Cargando métricas ...

Citas

Daniel M, Rencic J, Durning SJ, Holmboe E, Santen SA, Lang V, et al. Clinical Reasoning Assessment Methods: A Scoping Review and Practical Guidance. Acad Med. 2019 Jun; 94(6):902–12. https://doi.org/10.1097/acm.0000000000002618

Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Med Inform Decis Mak. 2008 Dec;8(1):18. https://doi.org/10.1186/1472-6947-8-18

Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice: AMEE Guide No. 75. Med Teach. 2013 Mar;35(3):184–93. https://doi.org/10.3109/0142159x.2013.760036

Lubarsky S, Charlin B, Cook DA, Chalk C, Van Der Vleuten CPM. Script concordance testing: a review of published validity evidence: Validity evidence for script concordance tests. Med Educ. 2011 Apr;45(4):329–38. https://doi.org/10.1111/j.1365-2923.2010.03863.x

Gordon M, Daniel M, Ajiboye A, Uraiby H, Xu NY, Bartlett R, et al. A scoping review of artificial intelligence in medical education: BEME Guide No. 84. Med Teach. 2024 Apr 2;46(4):446–70. https://doi.org/10.1080/0142159x.2024.2314198

Bakkum MJ, Hartjes MG, Piët JD, Donker EM, Likic R, Sanz E, et al. Using artificial intelligence to create diverse and inclusive medical case vignettes for education. Brit J Clinical Pharma. 2024 Jan 6;90(3):640–8. https://doi.org/10.1111/bcp.15977

Coşkun Ö, Kıyak YS, Budakoğlu Iİ. ChatGPT to generate clinical vignettes for teaching and multiple-choice questions for assessment: A randomized controlled experiment. Med Teach. 2024 Mar 13; https://doi.org/10.1080/0142159x.2024.2327477

Cook DA. Creating virtual patients using large language models: scalable, global, and low cost. Med Teach. 2024 Jul 11; https://doi.org/10.1080/0142159x.2024.2376879

Lam G, Shammoon Y, Coulson A, Lalloo F, Maini A, Amin A, et al. Utility of large language models for creating clinical assessment items. Med Teach. 2024 Aug 26;1–5. https://doi.org/10.1080/0142159x.2024.2382860

Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024 Jun 6; https://doi.org/10.1093/postmj/qgae065

Mistry NP, Saeed H, Rafique S, Le T, Obaid H, Adams SJ. Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions. Acad Radiol. 2024 Jul;S107663322400432X. https://doi.org/10.1016/j.acra.2024.06.046

Hudon A, Kiepura B, Pelletier M, Phan V. Using ChatGPT in Psychiatry to Design Script Concordance Tests in Undergraduate Medical Education: Mixed Methods Study. JMIR Med Educ. 2024 Apr 4;10:e54067–e54067. https://doi.org/10.2196/54067

Kıyak YS, Emekli E. A Prompt for Generating Script Concordance Test Using ChatGPT, Claude, and Llama Large Language Model Chatbots. Revista Española de Educación Médica. 2024;5(3):1–8. https://doi.org/10.6018/edumed.612381

Masters K. Medical Teacher’s first ChatGPT’s referencing hallucinations: Lessons for editors, reviewers, and teachers. Med Teach. 2023 Jul;45(7):673–5. https://doi.org/10.1080/0142159x.2023.2208731

Al-Naser Y, Halka F, Ng B, Mountford D, Sharma S, Niure K, et al. Evaluating Artificial Intelligence Competency in Education: Performance of ChatGPT-4 in the American Registry of Radiologic Technologists (ARRT) Radiography Certification Exam. Academic Radiology. 2024 Aug;S1076633224005725. https://doi.org/10.1016/j.acra.2024.08.009

Masters K, Benjamin J, Agrawal A, MacNeill H, Pillow MT, Mehta N. Twelve tips on creating and using custom GPTs to enhance health professions education. Med Teach. 2024 Jan 29;46(6):752–6. https://doi.org/10.1080/0142159x.2024.2305365

Kıyak YS. Beginner-Level Tips for Medical Educators: Guidance on Selection, Prompt Engineering, and the Use of Artificial Intelligence Chatbots. Med Sci Educ. 2024 Aug 17; https://doi.org/10.1007/s40670-024-02146-1

Li J, Wang S, Zhang M, Li W, Lai Y, Kang X, et al. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents [Internet]. arXiv; 2024 [cited 2024 May 10]. Available from: http://arxiv.org/abs/2405.029571