0030/2025 - Natural Language Processing applied to electronic records: monitoring and detection of health events Processamento de Linguagem Natural aplicado a registros eletrônicos: monitoramento e detecção de eventos em saúde
Text fields in medical records are a valuable source for Public Health Surveillance but remain underutilized. This study describes the use of natural language processing (NLP) to enhance the identification of suspected cases and monitor disease trends in electronic recordsurgency and emergency visits (RUE), in Rio de Janeiro municipality (MRJ). Texts were pre-processed, and rules were applied to identify individual events (measles and rubella) and collective ones (diarrhea and influenza-like syndrome), comparing the results with ICD-10 dataJanuary 2023 to September 2024. A total of 28 suspected measles cases and 33 suspected rubella cases were identified through ICD, while the NLP technique detected an additional 30 suspected measles cases and 17 of rubella based on patient complaints. Time series of diarrhea and influenza-like syndrome (SG) builtICD and complaints showed a cross-correlation above 0.93 at lag 0. Complaint analysis, particularly after the discontinuation of nonspecific SG ICD codes by RUE management, revealed greater stability and expanded detection of suspected cases, demonstrating the potential of NLP in epidemiological surveillance in MRJ.
Keywords:
natural language processing; public health surveillance; electronic health records; epidemiological monitoring
Processamento de Linguagem Natural aplicado a registros eletrônicos: monitoramento e detecção de eventos em saúde
Abstract(resumo):
Campos textuais de prontuários são fontes ricas para a Vigilância em Saúde, mas ainda pouco exploradas. Este estudo descreve o uso de processamento de linguagem natural (PLN) para ampliar a identificação de casos suspeitos e monitorar tendências de doenças em registros eletrônicos da Rede de Urgência e Emergência (RUE), no município do Rio de Janeiro (MRJ). Os textos foram pré-processados e aplicou-se regras para identificar eventos individuais (sarampo e rubéola) e coletivos (diarreia e síndrome gripal), comparando os resultados com dados da CID-10 entre janeiro de 2023 e setembro de 2024. Identificou-se 28 casos suspeitos de sarampo e 33 de rubéola pela CID, enquanto a técnica de PLN detectou mais 30 casos suspeitos de sarampo e 17 de rubéola, a partir das queixas dos pacientes. Séries temporais de diarreia e síndrome gripal (SG) construídas com CID e queixas mostraram correlação cruzada acima de 0,93 em lag 0. A análise das queixas, especialmente após a descontinuidade de CIDs inespecíficos de SG pela gestão da RUE, revelou maior estabilidade e ampliação na detecção de casos suspeitos, evidenciando o potencial do PLN na vigilância epidemiológica do MRJ.
Keywords(palavra-chave):
processamento de linguagem natural; vigilância em saúde; registros eletrônicos de saúde; monitoramento epidemiológico.
Vieira, G.C, Morais, JHA, Cruz, DMO, Ferreira, CD, Tassinari, W., Saraceni, V, Aguilar, GMO, Cruz, OG. Natural Language Processing applied to electronic records: monitoring and detection of health events. Cien Saude Colet [periódico na internet] (2025/Feb). [Citado em 05/12/2025].
Está disponível em: http://cienciaesaudecoletiva.com.br/en/articles/natural-language-processing-applied-to-electronic-records-monitoring-and-detection-of-health-events/19506