Uso de modelos de lenguaje de gran tamaño para generar pruebas de concordancia de guiones en la educación médica: ChatGPT y Claude
Resumen
Nuestro objetivo fue determinar la calidad de los ítems de la Prueba de Concordancia de Guión (SCT) generada por IA (ChatGPT-4 y Claude 3) a través de un panel de expertos. Generamos ítems de SCT sobre radiología abdominal utilizando un mensaje complejo en chatbots de modelo de lenguaje grande (LLM) (ChatGPT-4 y Claude 3 (Sonnet) en abril de 2024) y evaluamos la calidad de los ítems a través de un panel de expertos de 16 radiólogos. El panel de expertos, que desconocía el origen de los ítems proporcionados sin modificaciones, respondió de forma independiente cada ítem y los evaluó utilizando 12 indicadores de calidad. El análisis de datos incluyó estadísticas descriptivas, gráficos de barras para comparar las respuestas con los formularios aceptados y un mapa de calor para mostrar el desempeño en términos de los indicadores de calidad. Los ítems de SCT generados por chatbots evalúan el razonamiento clínico en lugar de solo el recuerdo fáctico (ChatGPT: 92,50 %, Claude: 85,00 %). El mapa de calor indicó que los ítems eran generalmente aceptables, con la mayoría de las respuestas favorables en todos los indicadores de calidad (ChatGPT: 71,77 %, Claude: 64,23 %). La comparación de los gráficos de barras con formas aceptables e inaceptables reveló que el 73,33 % y el 53,33 % de las preguntas en los ítems pueden considerarse aceptables, respectivamente, para ChatGPT y Claude. El uso de LLM para generar ítems de SCT puede ser útil para los educadores médicos al reducir el tiempo y el esfuerzo necesarios. Aunque el mensaje proporciona un buen punto de partida, sigue siendo crucial revisar y modificar los ítems de SCT generados por IA antes de su uso educativo. El mensaje y el GPT personalizado, “Script Concordance Test Generator”, disponible en https://chatgpt.com/g/g-RlzW5xdc1-script-concordance-test-generator, pueden agilizar el desarrollo de ítems de SCT.
Descargas
Métricas
Citas
Daniel M, Rencic J, Durning SJ, Holmboe E, Santen SA, Lang V, et al. Clinical Reasoning Assessment Methods: A Scoping Review and Practical Guidance. Acad Med. 2019 Jun; 94(6):902–12. https://doi.org/10.1097/acm.0000000000002618
Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Med Inform Decis Mak. 2008 Dec;8(1):18. https://doi.org/10.1186/1472-6947-8-18
Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice: AMEE Guide No. 75. Med Teach. 2013 Mar;35(3):184–93. https://doi.org/10.3109/0142159x.2013.760036
Lubarsky S, Charlin B, Cook DA, Chalk C, Van Der Vleuten CPM. Script concordance testing: a review of published validity evidence: Validity evidence for script concordance tests. Med Educ. 2011 Apr;45(4):329–38. https://doi.org/10.1111/j.1365-2923.2010.03863.x
Gordon M, Daniel M, Ajiboye A, Uraiby H, Xu NY, Bartlett R, et al. A scoping review of artificial intelligence in medical education: BEME Guide No. 84. Med Teach. 2024 Apr 2;46(4):446–70. https://doi.org/10.1080/0142159x.2024.2314198
Bakkum MJ, Hartjes MG, Piët JD, Donker EM, Likic R, Sanz E, et al. Using artificial intelligence to create diverse and inclusive medical case vignettes for education. Brit J Clinical Pharma. 2024 Jan 6;90(3):640–8. https://doi.org/10.1111/bcp.15977
Coşkun Ö, Kıyak YS, Budakoğlu Iİ. ChatGPT to generate clinical vignettes for teaching and multiple-choice questions for assessment: A randomized controlled experiment. Med Teach. 2024 Mar 13; https://doi.org/10.1080/0142159x.2024.2327477
Cook DA. Creating virtual patients using large language models: scalable, global, and low cost. Med Teach. 2024 Jul 11; https://doi.org/10.1080/0142159x.2024.2376879
Lam G, Shammoon Y, Coulson A, Lalloo F, Maini A, Amin A, et al. Utility of large language models for creating clinical assessment items. Med Teach. 2024 Aug 26;1–5. https://doi.org/10.1080/0142159x.2024.2382860
Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024 Jun 6; https://doi.org/10.1093/postmj/qgae065
Mistry NP, Saeed H, Rafique S, Le T, Obaid H, Adams SJ. Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions. Acad Radiol. 2024 Jul;S107663322400432X. https://doi.org/10.1016/j.acra.2024.06.046
Hudon A, Kiepura B, Pelletier M, Phan V. Using ChatGPT in Psychiatry to Design Script Concordance Tests in Undergraduate Medical Education: Mixed Methods Study. JMIR Med Educ. 2024 Apr 4;10:e54067–e54067. https://doi.org/10.2196/54067
Kıyak YS, Emekli E. A Prompt for Generating Script Concordance Test Using ChatGPT, Claude, and Llama Large Language Model Chatbots. Revista Española de Educación Médica. 2024;5(3):1–8. https://doi.org/10.6018/edumed.612381
Masters K. Medical Teacher’s first ChatGPT’s referencing hallucinations: Lessons for editors, reviewers, and teachers. Med Teach. 2023 Jul;45(7):673–5. https://doi.org/10.1080/0142159x.2023.2208731
Al-Naser Y, Halka F, Ng B, Mountford D, Sharma S, Niure K, et al. Evaluating Artificial Intelligence Competency in Education: Performance of ChatGPT-4 in the American Registry of Radiologic Technologists (ARRT) Radiography Certification Exam. Academic Radiology. 2024 Aug;S1076633224005725. https://doi.org/10.1016/j.acra.2024.08.009
Masters K, Benjamin J, Agrawal A, MacNeill H, Pillow MT, Mehta N. Twelve tips on creating and using custom GPTs to enhance health professions education. Med Teach. 2024 Jan 29;46(6):752–6. https://doi.org/10.1080/0142159x.2024.2305365
Kıyak YS. Beginner-Level Tips for Medical Educators: Guidance on Selection, Prompt Engineering, and the Use of Artificial Intelligence Chatbots. Med Sci Educ. 2024 Aug 17; https://doi.org/10.1007/s40670-024-02146-1
Li J, Wang S, Zhang M, Li W, Lai Y, Kang X, et al. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents [Internet]. arXiv; 2024 [cited 2024 May 10]. Available from: http://arxiv.org/abs/2405.029571
Derechos de autor 2024 Servicio de Publicaciones de la Universidad de Murcia
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Las obras que se publican en esta revista están sujetas a los siguientes términos:
1. El Servicio de Publicaciones de la Universidad de Murcia (la editorial) conserva los derechos patrimoniales (copyright) de las obras publicadas y favorece y permite la reutilización de las mismas bajo la licencia de uso indicada en el punto 2.
© Servicio de Publicaciones, Universidad de Murcia
2. Las obras se publican bajo una licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0.
3. Condiciones de auto-archivo. Se permite y se anima a los autores a difundir electrónicamente las versiones preprint (versión antes de ser evaluada y enviada a la revista) y/o post-print (versión evaluada y aceptada para su publicación) de sus obras antes de su publicación, ya que favorece su circulación y difusión más temprana y con ello un posible aumento en su citación y alcance entre la comunidad académica.