A multilabel approach to Portuguese clinical named entity recognition

Andrioli de Souza, João Vitor (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil) ; Terumi Rubel Schneider, Elisa (Federal University of Paraná (UFPR), Curitiba (PR), Brasil) ; Oliveira Cezar, Josilaine (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil) ; Silva e Oliveira, Lucas Emanuel (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil) ; Bonescki Gumiel, Yohan (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil) ; Cabrera Paraiso, Emerson (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil) ; Teodoro, Douglas (Haute école de gestion de Genève, HES-SO // Haute Ecole Spécialisée de Suisse Occidentale) ; Cabral Moro Barra, Claudia Maria (Pontifical Catholic University of Paraná (PUCPR), Curitiba (PR), Brasil)

Objectives: Clinical Named Entity Recognition is a critical Natural Language Processing task, as it could support biomedical research and healthcare systems. While most extracted clinical entities are based on single-label concepts, it is very common in the clinical domain entities with more than one semantic category simultaneously. This work proposes BERT-based models to support multilabel clinical named entity recognition in the Portuguese language. Methods: For the experiment, we used the Label Powerset method applied to the multilabel corpus SemClinBr. Results: We compare our results with a Conditional Random Fields baseline, reaching +2.1 in precision, +11.2 in recall, and +7.4 in F1 with a clinical-biomedical BERT model (BioBERTpt). Conclusion: We achieved higher results for both exact and partial metrics, contributing to the multilabel semantic processing of clinical narratives in Portuguese.

Objetivos: O Reconhecimento de Entidade Nomeada Clínico é uma tarefa crítica do Processamento de Linguagem Natural, uma vez que apoia a pesquisa biomédica e os sistemas de saúde. Embora a maioria das entidades clínicas extraídas seja baseada em conceitos de rótulo único, é muito comum no domínio clínico entidades com mais de uma categoria semântica simultaneamente. Neste trabalho, propomos modelos baseados em BERT para suportar o reconhecimento de entidade nomeada clínico multirrótulo na língua portuguesa. Métodos: Para o experimento, utilizamos o corpus multirrótulo SemClinBr com o método Label Powerset. Resultados: Comparamos nossos resultados com o baseline Campos Aleatórios Condicionais, atingindo +2,1 em precisão, +11,2 em recall e +7,4 em F1 com um modelo clínico-biomédico de BERT (BioBERTpt). Conclusão: Obtivemos resultados superiores para as métricas exatas e parciais, o que contribui para o processamento semântico multirrótulo de narrativas clínicas em português.

Metas: Reconocimiento de Entidades Nombradas Clínico es una tarea fundamental del procesamiento del lenguaje natural, ya que apoya la investigación biomédica y los sistemas de salud. Aunque la mayoría de las entidades clínicas extraídas se basan en conceptos de etiqueta única, es muy común en el dominio clínico tener entidades con más de una categoría semántica simultáneamente. En este trabajo, proponemos modelos basados en BERT para apoyar el reconocimiento de entidad clínica multi-etiqueta en lengua portuguesa. Métodos: Para el experimento, usamos el corpus de múltiples etiquetas SemClinBr con el método Label Powerset. Resultados: Comparamos nuestros resultados con la línea de base de los Campos Aleatorios Condicionales, alcanzando +2,1 en precisión, +11,2 en recuerdo y +7,4 en F1 con un modelo BERT clínico-biomédico (BioBERTpt). Conclusión: Obtuvimos resultados superiores para las métricas exactas y parciales, lo que contribuye al procesamiento semántico de múltiples etiquetas de las narrativas clínicas en portugués.


Keywords:
Translated Title:
Uma Abordagem Multirrótulo para Reconhecimento de Entidade Nomeada Clínica em Português = Enfoque Multi-Etiqueta para el Reconocimiento de Entidad Nombrada Clínica en Portugués
Conference Type:
published full paper
Faculty:
Economie et Services
School:
HEG - Genève
Institute:
CRAG - Centre de Recherche Appliquée en Gestion
Subject(s):
Informatique
Publisher:
Virtual conference, 7-11 December 2020
Date:
2020-12
Virtual conference
7-11 December 2020
Pagination:
7 p.
Published in:
Proceedings of the XVII Congresso Brasileiro de Informática em Saúde (CBIS 2020), published in Journal of health informatics
Numeration (vol. no.):
2020, vol. 12, suplemento I, pp. 366-372
ISSN:
2175-4411
External resources:
Appears in Collection:



 Record created 2021-06-01, last modified 2021-06-07

Fulltext:
Download fulltext
PDF

Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)