Uso de modelos de lenguaje de gran tamaño para generar pruebas de concordancia de guiones en la educación médica: ChatGPT y Claude

Autores/as

  • Yavuz Selim Kıyak Gazi University Faculty of Medicine https://orcid.org/0000-0002-5026-3234
  • Emre Emekli Department of Radiology, Faculty of Medicine, Eskişehir Osmangazi University, Eskişehir, Turkiye
DOI: https://doi.org/10.6018/edumed.636331
Palabras clave: script concordance test, clinical reasoning, medical education, artificial intelligence, ChatGPT

Resumen

Nuestro objetivo fue determinar la calidad de los ítems de la Prueba de Concordancia de Guión (SCT) generada por IA (ChatGPT-4 y Claude 3) a través de un panel de expertos. Generamos ítems de SCT sobre radiología abdominal utilizando un mensaje complejo en chatbots de modelo de lenguaje grande (LLM) (ChatGPT-4 y Claude 3 (Sonnet) en abril de 2024) y evaluamos la calidad de los ítems a través de un panel de expertos de 16 radiólogos. El panel de expertos, que desconocía el origen de los ítems proporcionados sin modificaciones, respondió de forma independiente cada ítem y los evaluó utilizando 12 indicadores de calidad. El análisis de datos incluyó estadísticas descriptivas, gráficos de barras para comparar las respuestas con los formularios aceptados y un mapa de calor para mostrar el desempeño en términos de los indicadores de calidad. Los ítems de SCT generados por chatbots evalúan el razonamiento clínico en lugar de solo el recuerdo fáctico (ChatGPT: 92,50 %, Claude: 85,00 %). El mapa de calor indicó que los ítems eran generalmente aceptables, con la mayoría de las respuestas favorables en todos los indicadores de calidad (ChatGPT: 71,77 %, Claude: 64,23 %). La comparación de los gráficos de barras con formas aceptables e inaceptables reveló que el 73,33 % y el 53,33 % de las preguntas en los ítems pueden considerarse aceptables, respectivamente, para ChatGPT y Claude. El uso de LLM para generar ítems de SCT puede ser útil para los educadores médicos al reducir el tiempo y el esfuerzo necesarios. Aunque el mensaje proporciona un buen punto de partida, sigue siendo crucial revisar y modificar los ítems de SCT generados por IA antes de su uso educativo. El mensaje y el GPT personalizado, “Script Concordance Test Generator”, disponible en https://chatgpt.com/g/g-RlzW5xdc1-script-concordance-test-generator, pueden agilizar el desarrollo de ítems de SCT.

Descargas

Los datos de descargas todavía no están disponibles.

Métricas

Cargando métricas ...

Citas

Daniel M, Rencic J, Durning SJ, Holmboe E, Santen SA, Lang V, et al. Clinical Reasoning Assessment Methods: A Scoping Review and Practical Guidance. Acad Med. 2019 Jun; 94(6):902–12. https://doi.org/10.1097/acm.0000000000002618

Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Med Inform Decis Mak. 2008 Dec;8(1):18. https://doi.org/10.1186/1472-6947-8-18

Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice: AMEE Guide No. 75. Med Teach. 2013 Mar;35(3):184–93. https://doi.org/10.3109/0142159x.2013.760036

Lubarsky S, Charlin B, Cook DA, Chalk C, Van Der Vleuten CPM. Script concordance testing: a review of published validity evidence: Validity evidence for script concordance tests. Med Educ. 2011 Apr;45(4):329–38. https://doi.org/10.1111/j.1365-2923.2010.03863.x

Gordon M, Daniel M, Ajiboye A, Uraiby H, Xu NY, Bartlett R, et al. A scoping review of artificial intelligence in medical education: BEME Guide No. 84. Med Teach. 2024 Apr 2;46(4):446–70. https://doi.org/10.1080/0142159x.2024.2314198

Bakkum MJ, Hartjes MG, Piët JD, Donker EM, Likic R, Sanz E, et al. Using artificial intelligence to create diverse and inclusive medical case vignettes for education. Brit J Clinical Pharma. 2024 Jan 6;90(3):640–8. https://doi.org/10.1111/bcp.15977

Coşkun Ö, Kıyak YS, Budakoğlu Iİ. ChatGPT to generate clinical vignettes for teaching and multiple-choice questions for assessment: A randomized controlled experiment. Med Teach. 2024 Mar 13; https://doi.org/10.1080/0142159x.2024.2327477

Cook DA. Creating virtual patients using large language models: scalable, global, and low cost. Med Teach. 2024 Jul 11; https://doi.org/10.1080/0142159x.2024.2376879

Lam G, Shammoon Y, Coulson A, Lalloo F, Maini A, Amin A, et al. Utility of large language models for creating clinical assessment items. Med Teach. 2024 Aug 26;1–5. https://doi.org/10.1080/0142159x.2024.2382860

Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024 Jun 6; https://doi.org/10.1093/postmj/qgae065

Mistry NP, Saeed H, Rafique S, Le T, Obaid H, Adams SJ. Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions. Acad Radiol. 2024 Jul;S107663322400432X. https://doi.org/10.1016/j.acra.2024.06.046

Hudon A, Kiepura B, Pelletier M, Phan V. Using ChatGPT in Psychiatry to Design Script Concordance Tests in Undergraduate Medical Education: Mixed Methods Study. JMIR Med Educ. 2024 Apr 4;10:e54067–e54067. https://doi.org/10.2196/54067

Kıyak YS, Emekli E. A Prompt for Generating Script Concordance Test Using ChatGPT, Claude, and Llama Large Language Model Chatbots. Revista Española de Educación Médica. 2024;5(3):1–8. https://doi.org/10.6018/edumed.612381

Masters K. Medical Teacher’s first ChatGPT’s referencing hallucinations: Lessons for editors, reviewers, and teachers. Med Teach. 2023 Jul;45(7):673–5. https://doi.org/10.1080/0142159x.2023.2208731

Al-Naser Y, Halka F, Ng B, Mountford D, Sharma S, Niure K, et al. Evaluating Artificial Intelligence Competency in Education: Performance of ChatGPT-4 in the American Registry of Radiologic Technologists (ARRT) Radiography Certification Exam. Academic Radiology. 2024 Aug;S1076633224005725. https://doi.org/10.1016/j.acra.2024.08.009

Masters K, Benjamin J, Agrawal A, MacNeill H, Pillow MT, Mehta N. Twelve tips on creating and using custom GPTs to enhance health professions education. Med Teach. 2024 Jan 29;46(6):752–6. https://doi.org/10.1080/0142159x.2024.2305365

Kıyak YS. Beginner-Level Tips for Medical Educators: Guidance on Selection, Prompt Engineering, and the Use of Artificial Intelligence Chatbots. Med Sci Educ. 2024 Aug 17; https://doi.org/10.1007/s40670-024-02146-1

Li J, Wang S, Zhang M, Li W, Lai Y, Kang X, et al. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents [Internet]. arXiv; 2024 [cited 2024 May 10]. Available from: http://arxiv.org/abs/2405.029571

Publicado
03-12-2024
Cómo citar
Kıyak, Y. S., & Emekli, E. (2024). Uso de modelos de lenguaje de gran tamaño para generar pruebas de concordancia de guiones en la educación médica: ChatGPT y Claude. Revista Española de Educación Médica, 6(1). https://doi.org/10.6018/edumed.636331

Artículos más leídos del mismo autor/a

Publication Facts

Metric
This article
Other articles
Peer reviewers 
2,4 promedio

Reviewer profiles  N/D

Author statements

Author statements
This article
Other articles
Data availability 
N/A
16%
External funding 
N/D
32% con financiadores
Competing interests 
N/D
11%
Metric
Para esta revista
Other journals
Articles accepted 
Artículos aceptados: 85%
33% aceptado
Days to publication 
28
145

Indexado: {$indexList}

Editor & editorial board
profiles
Academic society 
Universidad de Murcia
Editora: 
Ediciones de la Universidad de Murcia (Editum)