Desempenho de Modelos de Linguagem em Síndrome Coronariana Aguda Utilizando Geração Baseada em Busca (RAG)
- SBHCI

- 29 de out.
- 2 min de leitura
Título em inglês: Performance of Large Language Models on the Acute Coronary Syndrome Guidelines Using Retrieval-Augmented Generation
Autor: Dra. Michaella Alexandrou
Co-autores: Sant Kumar, Arun Umesh Mahtani, Dimitrios Strepkos, Pedro E.P. Carvalho, Deniz Mutlu, Ozgur Selim Ser, Athanasios Rempakos, Olga C. Mastrodemos, Bavana V. Rangan, Sandeep Jalli, Yader Sandoval, and Emmanouil S. Brilakis Show FewerAuthors Info & Affiliations
Revisor: Dr. Vinicius Shibata Ferrari
Referência: JACC: Cardiovascular Interventions Volume 18, Number 20
Contexto
Os grandes modelos de linguagem (LLMs) estão sendo cada vez mais usados em cardiologia intervencionista. No entanto, suas “alucinações” — respostas erradas ou inventadas — ainda limitam seu uso clínico.
Objetivos
O objetivo deste estudo foi avaliar se o uso da técnica chamada retrieval-augmented generation (RAG) — que permite ao modelo consultar diretamente o conteúdo das diretrizes médicas enquanto responde — melhora a precisão das respostas sobre as recomendações para síndrome coronariana aguda.
Métodos
Foram comparados três modelos: ChatGPT-4o, DeepSeek R1 e Med-PaLM 2.Um conjunto de 38 perguntas abertas baseadas nas diretrizes de cardiologia foi usado. O ChatGPT-4o e o DeepSeek R1 foram testados com e sem RAG, enquanto o Med-PaLM 2 (modelo voltado para medicina) foi testado sem RAG.As respostas foram comparadas com as recomendações oficiais usando uma ferramenta de pontuação de similaridade baseada em inteligência artificial.
Resultados
O DeepSeek R1 com RAG apresentou a maior precisão (94,7%; IC 95%: 82,7%–98,5%), seguido do ChatGPT-4o com RAG (92,1%; IC 95%: 79,2%–97,3%) (P = 0,922).O ChatGPT-4o sem RAG obteve 71,1% de acerto (IC 95%: 55,2%–83,0%), mostrando melhora significativa com o uso do RAG (P = 0,017).Entre os modelos sem RAG, o DeepSeek R1 teve o melhor desempenho (78,9%; IC 95%: 63,7%–88,9%), seguido pelo ChatGPT-4o (71,1%) (P = 0,083).O Med-PaLM 2 apresentou a menor precisão (68,4%; IC 95%: 52,5%–80,9%).A análise de correlação de Spearman mostrou forte correlação entre DeepSeek R1 sem RAG e Med-PaLM 2 (r = 0,646; IC 95%: 0,411–0,800; P < 0,001), indicando padrões de resposta semelhantes.Os gráficos de dispersão mostraram que o RAG melhorou principalmente as respostas mais fracas no DeepSeek R1, enquanto no ChatGPT-4o a melhora foi mais uniforme.
Conclusões
Incorporar o conteúdo das diretrizes médicas diretamente no fluxo de trabalho dos LLMs por meio do RAG pode aumentar significativamente a precisão das respostas em contextos clínicos — especialmente em situações comuns na cardiologia intervencionista. Esses resultados reforçam o potencial dos LLMs, quando aprimorados com conhecimento médico específico, para otimizar a tomada de decisão clínica e garantir maior aderência às diretrizes.


Comentários