Indexado semántico de grano fino de textos biomédicos con modelos linguístico
Autoría
M.G.L.
Grao en Enxeñaría Informática
M.G.L.
Grao en Enxeñaría Informática
Data da defensa
20.02.2025 17:00
20.02.2025 17:00
Resumo
Este Traballo Fin de Grao (TFG) aborda a indexación semántica de textos biomédicos mediante o uso de grandes modelos lingüísticos (LLM), co obxectivo de mellorar o acceso á información en biomedicina mediante a asignación automatizada de descritores MeSH. O método proposto consta de varias etapas. En primeiro lugar, preprocesa a ontoloxía MeSH obtida a través de BioPortal. Os resumos biomédicos previamente indexados con etiquetas de gran groso son entón seleccionados para un maior refinamento semántico. A metodoloxía emprega unha estratexia de aviso cero co modelo LLaMa3, desenvolvendo e optimizando diferentes configuracións de avisos para mellorar a clasificación. A combinación de conxunto das estratexias máis eficaces permitiu optimizar significativamente o rendemento do sistema. Finalmente, o modelo avalíase mediante métricas estandarizadas (precisión, recordación e medida F) para analizar o seu rendemento e determinar a súa viabilidade en tarefas de indexación biomédica. Os resultados mostran que LLaMa3 supera os métodos tradicionais débilmente supervisados en canto a precisión, lembranza e medida F, consolidándose como unha alternativa eficaz para a indexación biomédica. Non obstante, seguen existindo desafíos en termos de eficiencia computacional e escalabilidade, especialmente para a implementación en grandes volumes de datos. A análise das etiquetas asignadas permitiunos identificar patróns de rendemento e definir estratexias para mellorar a calidade da indexación semántica. Para abordar estes desafíos, explorase a busca semántica mediante bases de datos vectoriais como unha posible estratexia de optimización computacional. Non obstante, os resultados obtidos non alcanzaron a calidade esperada en termos de indexación, o que suxire a necesidade de máis axustes na configuración dos limiares e na representación do contexto semántico. En conclusión, este traballo valida o potencial dos modelos de linguaxe xenerativa na indexación biomédica, destacando a importancia de optimizar o seu rendemento e escalabilidade para a súa aplicación en grandes volumes de datos. Estes achados sentan as bases para futuras investigacións dirixidas a mellorar a eficiencia e precisión dos sistemas de indexación semántica en biomedicina.
Este Traballo Fin de Grao (TFG) aborda a indexación semántica de textos biomédicos mediante o uso de grandes modelos lingüísticos (LLM), co obxectivo de mellorar o acceso á información en biomedicina mediante a asignación automatizada de descritores MeSH. O método proposto consta de varias etapas. En primeiro lugar, preprocesa a ontoloxía MeSH obtida a través de BioPortal. Os resumos biomédicos previamente indexados con etiquetas de gran groso son entón seleccionados para un maior refinamento semántico. A metodoloxía emprega unha estratexia de aviso cero co modelo LLaMa3, desenvolvendo e optimizando diferentes configuracións de avisos para mellorar a clasificación. A combinación de conxunto das estratexias máis eficaces permitiu optimizar significativamente o rendemento do sistema. Finalmente, o modelo avalíase mediante métricas estandarizadas (precisión, recordación e medida F) para analizar o seu rendemento e determinar a súa viabilidade en tarefas de indexación biomédica. Os resultados mostran que LLaMa3 supera os métodos tradicionais débilmente supervisados en canto a precisión, lembranza e medida F, consolidándose como unha alternativa eficaz para a indexación biomédica. Non obstante, seguen existindo desafíos en termos de eficiencia computacional e escalabilidade, especialmente para a implementación en grandes volumes de datos. A análise das etiquetas asignadas permitiunos identificar patróns de rendemento e definir estratexias para mellorar a calidade da indexación semántica. Para abordar estes desafíos, explorase a busca semántica mediante bases de datos vectoriais como unha posible estratexia de optimización computacional. Non obstante, os resultados obtidos non alcanzaron a calidade esperada en termos de indexación, o que suxire a necesidade de máis axustes na configuración dos limiares e na representación do contexto semántico. En conclusión, este traballo valida o potencial dos modelos de linguaxe xenerativa na indexación biomédica, destacando a importancia de optimizar o seu rendemento e escalabilidade para a súa aplicación en grandes volumes de datos. Estes achados sentan as bases para futuras investigacións dirixidas a mellorar a eficiencia e precisión dos sistemas de indexación semántica en biomedicina.
Dirección
TABOADA IGLESIAS, MARÍA JESÚS (Titoría)
TABOADA IGLESIAS, MARÍA JESÚS (Titoría)
Tribunal
TABOADA IGLESIAS, MARÍA JESÚS (Titor do alumno)
TABOADA IGLESIAS, MARÍA JESÚS (Titor do alumno)