Résumé

Objectives: Clinical Named Entity Recognition is a critical Natural Language Processing task, as it could support biomedical research and healthcare systems. While most extracted clinical entities are based on single-label concepts, it is very common in the clinical domain entities with more than one semantic category simultaneously. This work proposes BERT-based models to support multilabel clinical named entity recognition in the Portuguese language. Methods: For the experiment, we used the Label Powerset method applied to the multilabel corpus SemClinBr. Results: We compare our results with a Conditional Random Fields baseline, reaching +2.1 in precision, +11.2 in recall, and +7.4 in F1 with a clinical-biomedical BERT model (BioBERTpt). Conclusion: We achieved higher results for both exact and partial metrics, contributing to the multilabel semantic processing of clinical narratives in Portuguese.

Objetivos: O Reconhecimento de Entidade Nomeada Clínico é uma tarefa crítica do Processamento de Linguagem Natural, uma vez que apoia a pesquisa biomédica e os sistemas de saúde. Embora a maioria das entidades clínicas extraídas seja baseada em conceitos de rótulo único, é muito comum no domínio clínico entidades com mais de uma categoria semântica simultaneamente. Neste trabalho, propomos modelos baseados em BERT para suportar o reconhecimento de entidade nomeada clínico multirrótulo na língua portuguesa. Métodos: Para o experimento, utilizamos o corpus multirrótulo SemClinBr com o método Label Powerset. Resultados: Comparamos nossos resultados com o baseline Campos Aleatórios Condicionais, atingindo +2,1 em precisão, +11,2 em recall e +7,4 em F1 com um modelo clínico-biomédico de BERT (BioBERTpt). Conclusão: Obtivemos resultados superiores para as métricas exatas e parciais, o que contribui para o processamento semântico multirrótulo de narrativas clínicas em português.

Metas: Reconocimiento de Entidades Nombradas Clínico es una tarea fundamental del procesamiento del lenguaje natural, ya que apoya la investigación biomédica y los sistemas de salud. Aunque la mayoría de las entidades clínicas extraídas se basan en conceptos de etiqueta única, es muy común en el dominio clínico tener entidades con más de una categoría semántica simultáneamente. En este trabajo, proponemos modelos basados en BERT para apoyar el reconocimiento de entidad clínica multi-etiqueta en lengua portuguesa. Métodos: Para el experimento, usamos el corpus de múltiples etiquetas SemClinBr con el método Label Powerset. Resultados: Comparamos nuestros resultados con la línea de base de los Campos Aleatorios Condicionales, alcanzando +2,1 en precisión, +11,2 en recuerdo y +7,4 en F1 con un modelo BERT clínico-biomédico (BioBERTpt). Conclusión: Obtuvimos resultados superiores para las métricas exactas y parciales, lo que contribuye al procesamiento semántico de múltiples etiquetas de las narrativas clínicas en portugués.

Détails

Actions

PDF