EN PT

Artigos

0030/2025 - Processamento de Linguagem Natural aplicado a registros eletrônicos: monitoramento e detecção de eventos em saúde
Natural Language Processing applied to electronic records: monitoring and detection of health events

Autor:

• Gabriel Campos Vieira - Vieira, G.C - <camposvieiragabriel@gmail.com>
ORCID: https://orcid.org/0009-0008-5022-1932

Coautor(es):

• João Henrique de Araújo Morais - Morais, J.H.A - <joao.tlp@gmail.com>
ORCID: https://orcid.org/0000-0003-3258-1498

• Débora Medeiros de Oliveira e Cruz - Cruz, D.M.O - <debora.sanitarista@gmail.com>
ORCID: https://orcid.org/0000-0002-8325-6866

• Caroline Dias Ferreira - Ferreira, C.D - <carolineferreira.smsrio@gmail.com>
ORCID: https://orcid.org/0000-0001-9631-8571

• Wagner Tassinari - Tassinari, W. - <wtassinari@gmail.com>
ORCID: https://orcid.org/0000-0002-3799-1261

• Valeria Saraceni - Saraceni, V. - <valsaraceni@gmail.com>
ORCID: https://orcid.org/0000-0001-7360-6490

• Gislani Mateus Oliveira Aguilar - Aguilar, G.M.O - <gislanimateus@gmail.com>
ORCID: https://orcid.org/0000-0001-9103-9864

• Oswaldo Gonçalves Cruz - Cruz, O.G - <ogcruz@gmail.com>
ORCID: https://orcid.org/0000-0002-3289-3195



Resumo:

Campos textuais de prontuários são fontes ricas para a Vigilância em Saúde, mas ainda pouco exploradas. Este estudo descreve o uso de processamento de linguagem natural (PLN) para ampliar a identificação de casos suspeitos e monitorar tendências de doenças em registros eletrônicos da Rede de Urgência e Emergência (RUE), no município do Rio de Janeiro (MRJ). Os textos foram pré-processados e aplicou-se regras para identificar eventos individuais (sarampo e rubéola) e coletivos (diarreia e síndrome gripal), comparando os resultados com dados da CID-10 entre janeiro de 2023 e setembro de 2024. Identificou-se 28 casos suspeitos de sarampo e 33 de rubéola pela CID, enquanto a técnica de PLN detectou mais 30 casos suspeitos de sarampo e 17 de rubéola, a partir das queixas dos pacientes. Séries temporais de diarreia e síndrome gripal (SG) construídas com CID e queixas mostraram correlação cruzada acima de 0,93 em lag 0. A análise das queixas, especialmente após a descontinuidade de CIDs inespecíficos de SG pela gestão da RUE, revelou maior estabilidade e ampliação na detecção de casos suspeitos, evidenciando o potencial do PLN na vigilância epidemiológica do MRJ.

Palavras-chave:

processamento de linguagem natural; vigilância em saúde; registros eletrônicos de saúde; monitoramento epidemiológico.

Abstract:

Text fields in medical records are a valuable source for Public Health Surveillance but remain underutilized. This study describes the use of natural language processing (NLP) to enhance the identification of suspected cases and monitor disease trends in electronic recordsurgency and emergency visits (RUE), in Rio de Janeiro municipality (MRJ). Texts were pre-processed, and rules were applied to identify individual events (measles and rubella) and collective ones (diarrhea and influenza-like syndrome), comparing the results with ICD-10 dataJanuary 2023 to September 2024. A total of 28 suspected measles cases and 33 suspected rubella cases were identified through ICD, while the NLP technique detected an additional 30 suspected measles cases and 17 of rubella based on patient complaints. Time series of diarrhea and influenza-like syndrome (SG) builtICD and complaints showed a cross-correlation above 0.93 at lag 0. Complaint analysis, particularly after the discontinuation of nonspecific SG ICD codes by RUE management, revealed greater stability and expanded detection of suspected cases, demonstrating the potential of NLP in epidemiological surveillance in MRJ.

Keywords:

natural language processing; public health surveillance; electronic health records; epidemiological monitoring

Conteúdo:

Introdução
Registros eletrônicos em saúde (RES) constituem-se em coleções sistematizadas de dados, que contêm sinais e sintomas, solicitações e resultados de exames, imagens, prescrições e outras informações individuais de pacientes, coletadas por profissionais de saúde. O arcabouço destes registros inclui campos em formato estruturado (tais como campos numéricos, caixas de seleção) e campos não estruturados, como caixas de textos livres. A análise desses campos textuais, utilizando técnicas de Processamento de Linguagem Natural (PLN), pode incorporar novas visões para a atuação da vigilância em saúde e tem sido útil para apoiar a tomada de decisões e beneficiar a saúde em níveis individual e coletivo 1,2.
De fato, abordagens exploratórias aplicadas aos campos de texto livre por meio de PLN têm colaborado para a compreensão das relações semânticas nos textos médicos, com possibilidade de extração de informações, segmentação de frases e categorização e associação de palavras 3. Estudos prévios que utilizaram o PLN permitiram, por exemplo, a identificação de comorbidades em pacientes diabéticos, o monitoramento de tentativas de suicídio, a detecção de casos de influenza e a identificação de síndromes emergentes na abordagem da vigilância pré-sindrômica 4–7.
No entanto, explorar de forma automatizada e confiável os campos de texto livre exige o domínio de técnicas de interpretação de texto em linguagem computacional. O PLN originou-se da mistura entre linguística e computação 8 e atualmente, refere-se à capacidade de traduzir a linguagem humana para gerar novos insights, por meio de análise automatizada, envolvendo técnicas computacionais estatísticas ou de aprendizado de máquina 9. Diferentes processos para extrair e detectar informações em campos de textos livres, de forma sumarizada, envolvem etapas de coleta, processamento, análise e interpretação das informações. Para tanto, as abordagens do PLN são diversas e podem utilizar desde modelos de classificação tradicionais, como sistemas baseados em regras por expressões regulares ou busca por palavras-chave, até avançar no desenvolvimento de algoritmos mais sofisticados de machine learning (ML), deep learning (DL) e Large Language Models (LLM) 10,11.
No município do Rio de Janeiro (MRJ) a utilização dos RES da rede de urgência e emergência foi iniciada na pandemia de Covid-19. Atualmente, estes registros subsidiam atividades de detecção de doenças e o acompanhamento de tendências temporais de agravos importantes (como as arboviroses e a síndrome gripal), sendo a identificação de eventos e o monitoramento epidemiológico consolidado em um painel de alertas. Essas atividades foram propostas inicialmente, a partir da análise de códigos da Décima Revisão da Classificação Internacional de Doenças (CID-10), contidos em campos estruturados desses registros eletrônicos 12.
Apesar dos avanços obtidos pela análise dos códigos da CID-10 para a vigilância em saúde (VS), o conteúdo do campo de texto livre – o qual possibilita a busca de sinais, sintomas e possíveis diagnósticos no registro das queixas do paciente – permanecia não explorado. Ao considerar a necessidade de diversificar os processos adotados para a detecção precoce e reforçar o monitoramento de eventos de importância em saúde pública, este artigo teve como objetivo descrever estratégias para ampliar a identificação de casos suspeitos e reforçar o monitoramento de tendências de doenças de interesse em saúde pública, por meio do uso de processamento de linguagem natural, aplicado a RES, no MRJ.

Metodologia

Fonte de dados

O estudo baseia-se em registros eletrônicos de atendimentos realizados em 15 Unidades de Pronto Atendimento e 4 Coordenações de Emergência Regional, no período entre janeiro de 2023 até setembro de 2024. Essas unidades representam 82,0% dos serviços que compõem a rede de atenção à urgência e emergência da esfera municipal do Rio de Janeiro.
Variáveis sociodemográficas, dados da unidade de saúde, identificação do atendimento segundo a CID-10 e campos de texto livre para registro das queixas do paciente foram analisados. A captura dos registros foi realizada diariamente, de forma automatizada, a partir de conexões via interface de programação de aplicações (Application Programming Interface - API) e os registros carregados para uma base local de dados no Centro de Inteligência Epidemiológica (CIE) 13.
Todos os 4.089.949 atendimentos disponibilizados no período de análise foram incluídos, sendo a completude dos campos queixa e CID-10 verificados em 91,5% e 99,8%, respectivamente. A média de atendimentos mensais por unidade foi de 10.250 (desvio padrão de 2.611), indicando certa variabilidade entres as unidades. Essa variabilidade reflete a diferença da demanda e capacidade dos serviços, além da própria população residente nas áreas de atuação de cada unidade. Os atendimentos sem o preenchimento do campo de queixas foram considerados como dados faltantes.
Pré-processamento
Uma sequência de modificações no campo de queixas do paciente para melhorar a capacidade analítica dos textos foi realizada. Procedimentos como a remoção de números e caracteres especiais, conversão para letras minúsculas, remoção de stopwords (termos não relevantes como “a”, “no”, “para”, etc.) foram aplicados. Essas técnicas são largamente empregadas em métodos de classificação baseado em regras, denominados como keyword-based, rule-based ou linguistic systems. Geralmente, baseiam-se em um dicionário de palavras-chave elaborado manualmente, em conjunto com uma série de regras de mapeamento de síndromes e um módulo de pré-processamento para normalizar variantes lexicais 14.
A seleção dos sintomas para a criação de regras com expressões regulares utilizadas na captura dos casos a partir das queixas foi definida em consenso, por uma equipe multidisciplinar do CIE, composta por dois médicos, uma enfermeira e três epidemiologistas. Considerou-se tanto a definição de caso suspeito dos eventos de interesse, baseada na Ficha de Notificação do Sistema de Informação de Agravos de Notificação (SINAN), quanto a linguagem e termos utilizados na rotina do atendimento aos pacientes.
A lista de stopwords foi baseada no pacote tidytext v0.4.2 15, fonte stopwords-iso, e modificada a partir da soma das palavras identificadas na própria base de dados e que apresentaram alta frequência, mas sem agregar significado às queixas. O processo de padronização dos termos considerou variações gramaticais possíveis e identificadas na própria base de dados para que, por exemplo, {¨febril", "temperatura elevada", "febricula", "piretica(o)", "hipertermia", "corpo quente", "tax elevado", ¨febr"} fosse traduzido para "febre". Foi criada uma variável booleana para cada sintoma, obtendo uma classificação do atendimento em relação aos sintomas elencados com uso de expressões regulares. Na tabela 1 apresenta-se a lista de sintomas e suas variações gramaticais na escrita, já sem considerar acentos e letras maiúsculas, selecionadas na elaboração das expressões regulares para a padronização dos sintomas no campo de queixas.
Tabela 1. Sintomas, possíveis variações e sinônimos utilizados para padronização de termos no pré-processamento dos registros
Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.

Classificação dos atendimentos
Após a preparação e padronização dos campos, os atendimentos foram classificados a partir da busca por expressões regulares baseadas nas regras de cada doença das duas categorias de interesse: evento de atenção individual (sarampo e rubéola) e evento de atenção coletiva (diarreia e síndrome gripal). A escolha dos eventos de atenção esteve alinhada a critérios de impacto à saúde pública, potencial de disseminação e vulnerabilidade 16 e as duas categorias foram definidas em função de ações distintas voltadas ao manejo de suspeitas individuais e aglomerações de casos. Reitera-se que a suspeita diagnóstica de doenças em processo de eliminação, como sarampo e rubéola, é ainda mais relevante que a própria confirmação dos casos, além de serem menos frequentes se comparados aos eventos de atenção coletiva. Nesta categoria, por outro lado, busca-se ampliar os sinais para identificação de tendências de doenças como a diarreia e a síndrome gripal, as quais são notificadas principalmente na forma de surtos no território, não permitindo a identificação dos casos isolados por meio do SINAN.
A Tabela 2 apresenta as regras definidas na forma de operadores lógicos “E”, “OU” e “E NÃO”, representando as expressões regulares utilizadas, para a classificação dos atendimentos nas doenças categorizadas como eventos de atenção individual (sarampo e rubéola) e coletiva (síndrome gripal e diarreia).

Tabela 2. Regras aplicadas aos registros eletrônicos para busca textual, por tipo de evento em saúde
Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.
Os termos utilizados para a busca textual da Tabela 2 compreenderam o conjunto já padronizado e apresentados na Tabela 1 e outros termos específicos que direcionam a classificação do agravo de interesse, como "ganglio" e "caroco".
Especialmente os eventos de atenção individual foram capturados e direcionados por e-mail às unidades de resposta rápida (URR) do MRJ, para validação do evento e realização de possíveis desdobramentos das ações de VS no território.
A sequência de etapas realizadas para o pré-processamento e a classificação dos atendimentos a partir das queixas de pacientes contidas nos RES apresenta-se sumarizada na Figura 1.
Figura 1. Fluxograma das etapas de processamento aplicadas ao campo queixas dos registros eletrônicos da rede de urgência e emergência no MRJ

Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.

Comparação pela classificação CID versus campos textuais
O número de casos suspeitos de rubéola e sarampo identificados pelo uso do campo estruturado da CID-10 foi comparado ao total de eventos capturados pelo conjunto de regras textuais, sendo apresentado o incremento percentual.
As séries temporais dos atendimentos classificados como diarreia e síndrome gripal por CID foram comparadas às séries geradas com o uso de PLN, por meio de correlação cruzada utilizando as séries diferenciadas. Essa metodologia envolve o cálculo de coeficientes de correlação para diferentes defasagens temporais (lags), onde uma série é mantida fixa e a outra é deslocada para frente e para trás no tempo. Com lags variando de -15 a +15 semanas epidemiológicas, foi identificada a defasagem com a maior correlação positiva ou negativa, a um nível de significância de 95%.
As análises de dados foram conduzidas em linguagem R versão 4.4.0 17 com os pacotes stats 17, ggplot2 18, tidyverse 19, duckdb 20, sendmail 21 e VennDiagram 22. Os códigos utilizados no pré-processamento e na classificação dos atendimentos estão disponíveis em repositório aberto 23.
Considerações éticas
A utilização dos dados da rede de urgência e emergência foi contemplada em projeto aprovado sob o parecer nº 6.572.784 do Comitê de Ética em Pesquisa da Secretaria Municipal de Saúde do Rio de Janeiro.
Resultados
A partir das buscas realizadas no período de análise, são apresentados os resultados dos eventos de atenção individual e coletiva, ambos totalizando as buscas já realizadas atualmente por CID e as novas por meio da técnica de PLN.
A Figura 2 apresenta o total acumulado de casos suspeitos de sarampo e rubéola identificados pela categoria da CID, pelas queixas (regras textuais) e por ambas as abordagens, no período de janeiro de 2023 a setembro de 2024.
Figura 2. Eventos de atenção individual capturados pela CID (campo estruturado) e campo queixas (não estruturado) no MRJ, no período de jan/2023 a set/2024



Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.
Ao longo do período analisado, foram identificados 28 casos suspeitos de sarampo e 33 de rubéola a partir do campo estruturado de CID. Após a aplicação das regras textuais nas queixas, capturou-se 30 casos de sarampo e 17 de rubéola, sendo que 1 caso de sarampo e 2 de rubéola foram identificados por ambas as abordagens. No total, 57 casos suspeitos de sarampo e 48 de rubéola foram identificados, representando um aumento de 103,5% e 45,4%, respectivamente, em relação à busca isolada por CID.
A aplicação de PLN com foco no acompanhamento de séries temporais e tendências de eventos de atenção coletiva foram comparadas às séries elaboradas a partir de CIDs específicos, em que já não se buscam casos suspeitos isolados, mas sim eventuais mudanças de comportamento de determinados agravos como diarreia e síndrome gripal.
A Figura 3 apresenta a série temporal de atendimentos classificados como diarreia por CID e pelas queixas, bem como a correlação cruzada entre as duas séries temporais, por semana epidemiológica (SE).

Figura 3. Séries temporais para diarreia utilizando o campo CID e queixas e correlação cruzada entre as séries no MRJ, no período de jan/2023 a set/2024
Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.
Conforme observado pela Figura 3a, o comportamento do número de casos de diarreia, a partir do campo estruturado de CID (linha cinza tracejada) foi similar ao do número de casos identificados pelas regras obtidas pelo campo das queixas dos pacientes (linha preta). O valor máximo da correlação cruzada entre as séries diferenciadas em lag 0 igual a 0,93, com nível de confiança de 95% (Figura 3b), sugere a correspondência entre as séries no tempo, sem atraso ou antecipação significativos ao utilizar ambas as abordagens de busca.
Entre a SE 07 até a SE 12 (2024), observou-se um incremento na série oriunda do campo textual (queixas) em relação aos classificados por CID, atingindo um valor máximo de 6630 casos semanais, ainda maior que o registrado por CID na SE 50 de 2023 de 5822 casos. O oposto pode ser verificado, a partir da SE 17 de 2024, em que casos identificados por CID foram superiores aos capturados pelas queixas até o final da série temporal.
No que se refere aos atendimentos classificados como síndrome gripal por CID e pelas queixas, as séries temporais e a correlação cruzada entre estas são apresentados na Figura 4.
Figura 4. Séries temporais para síndrome gripal utilizando o campo CID e queixas e correlação cruzada entre as séries no MRJ, no período de jan/2023 a set/2024

Fonte: Elaboração própria no Centro de Inteligência Epidemiológica, outubro/2024.

Ao observar a Figura 4, assim como destacado para o monitoramento da diarreia, as séries de síndrome gripal capturadas pelas abordagens com dados estruturados (CID) e não estruturados (queixas) também apresentaram padrões similares no tempo, com a correlação cruzada atingindo o valor máximo de 0,95 em lag 0, com nível de confiança de 95% (Figura 4b). Ou seja, apresentam correspondência no tempo, sem atraso ou antecipação significativos entre as séries. Ainda assim, ao longo de todo o período analisado, é possível observar que o número de casos capturados pelas queixas é superior à abordagem por CID, destacadamente até o início da SE 44 de 2023.
Dois marcos importantes no contexto da informação registrada nos prontuários eletrônicos da RUE foram destacados na Figura 4a (linhas pontilhadas). O primeiro, a partir da SE 44 de 2023, indica a descontinuidade do uso do CID R05 (tosse aguda ou crônica) e o segundo, a partir da SE 11 de 2024, a descontinuidade do uso do CID B34.9 (infecção viral não especificada) por orientação da gestão da RUE do MRJ, ambos CIDs inespecíficos comumente utilizados para a classificação de síndrome gripal. Dessa forma, o efeito pôde ser observado na menor distância entre as séries a partir dos marcos indicados no gráfico, ainda com a predominância de casos capturados pelas queixas.
Discussão
Os sistemas tradicionais de vigilância epidemiológica foram projetados, em sua maior parte, sob um paradigma passivo, focados na contagem da ocorrência de casos humanos, hospitalizações, diagnósticos laboratoriais positivos, genomas de patógenos e mortes, sendo pautados, principalmente, em dados estruturados 24. Embora sejam úteis para detectar doenças e monitorar tendências de eventos, esses sistemas apresentam limitações significativas, como a possibilidade de subnotificação, a demora no tempo de resposta e a incapacidade de capturar informações detalhadas sobre eventos emergentes, especialmente aqueles que não são imediatamente reconhecidos como ameaças à saúde pública 25.
A diversificação das fontes de dados para a elaboração de políticas públicas, particularmente para a vigilância de doenças transmissíveis, tem sido estimulada por diferentes autores 26,27 e já é uma realidade para os processos de trabalho da VS do MRJ. A estruturação de um sistema de saúde com prontuários eletrônicos em sua rede assistencial própria foi determinante para os últimos avanços na saúde pública carioca, permitindo o acesso aos dados em tempo "quase real" e de forma automatizada. Ainda assim, a incorporação dos registros da RUE e uso dos códigos da CID para a detecção e monitoramento de eventos pela VS, processos que demandam alta sensibilidade, apesar de ser um recurso valioso, não considerou inicialmente, o processamento do conteúdo textual dos atendimentos clínicos 12,28.
Os resultados do presente estudo indicaram que o processo de classificação automática de sinais e sintomas das queixas reforçou e ampliou a capacidade da captura oportuna de eventos de atenção individual. De fato, ao incorporar as queixas de pacientes na estratégia de busca de casos suspeitos na RUE do MRJ, pode-se confirmar um real avanço frente ao detectado pela CID-10, com cerca de 100% e 45% a mais de casos suspeitos de sarampo e rubéola identificados, respectivamente. A captura desses eventos oportunizou ações no âmbito individual, como coleta de dados clínicos e amostras biológicas, envio ao laboratório, identificação de contatos e bloqueio vacinal 16. O PLN contribuiu, adicionalmente, para o alcance das metas relacionadas aos indicadores de qualidade da vigilância epidemiológica das doenças exantemáticas, visando a recuperação do certificado de eliminação do sarampo no Brasil 29.
No contexto dos eventos de atenção coletiva verificou-se que as séries elaboradas a partir do campo textual correlacionaram-se fortemente às séries temporais originadas pelos códigos da CID-10. A hipótese conceitual, de que o processamento do campo não estruturado em fontes não tradicionais para a VS constitui-se numa abordagem eficaz para a identificação de mudanças em tendências e reforça a estratégia orientada pelo CID, foi confirmada. Conforme apresentado, a série de SG gerada pelo campo não estruturado (queixas), permaneceu estável quando comparada ao monitoramento realizado com o uso do campo estruturado, que é suscetível diretamente ao código marcado pelo profissional de saúde no prontuário. Acrescenta-se que mudanças no uso dos códigos da CID são situações comuns na rotina da urgência e emergência, influenciadas pelo contexto epidemiológico, por orientações da gestão e isso pode afetar estratégias que dependem do preenchimento desse campo.
A estratégia adotada para o campo textual foi também capaz de capturar maior volume de dados em grande parte da série analisada. Os textos livres nos prontuários eletrônicos, conforme sugerem os achados aqui apresentados, continham descrições ricas e detalhadas dos sintomas dos pacientes, oferecendo informações que os modelos tradicionais dificilmente poderiam captar. As análises realizadas para diarreia e SG, alinhadas ao monitoramento pela CID, reforçaram o sinal de alerta e resultaram em desdobramentos locais, como a ampliação de coleta de amostras biológicas e elaboração de notas técnicas à rede de VS com vistas ao fortalecimento da vigilância sindrômica no MRJ.
Embora tenham sido observados ganhos para as atividades de proteção à saúde, os sinais obtidos não anteciparam a série verificada pela CID, ainda considerando que as queixas representam os agravos de forma mais diversificada, como em outros trabalhos 30,31. Cabe a ressalva que buscar antecipação de sinais e tendências no âmbito de um mesmo conjunto de dados é um desafio.
A antecipação de sinais em fontes de dados distintas foi evidenciada ao utilizar um classificador Bayesiano 32, baseado na probabilidade de cada palavra (sinais e sintomas) para cada síndrome, detectando três surtos respiratórios com alta sensibilidade e especificidade 31. Nesse estudo, as séries temporais de queixas numa rede de emergência apresentaram correlação com admissões hospitalares, antecipando-as em média de 10,3 dias. No contexto das síndromes respiratórias, mostrou-se um ganho de duas semanas, a partir da análise de atendimentos da Atenção Primária à Saúde (APS) em comparação aos casos notificados aos sistemas de vigilância, contudo a estratégia foi baseada em dados estruturados 30. Nesse sentido, incorporar as queixas de pacientes da APS no modelo de alerta aqui proposto, poderia potencializar a capacidade de resposta, seja na estabilidade de sinais e sintomas capturados pela própria assistência em saúde, ou para a preparação da rede hospitalar, ao apontar mudanças de tendências previamente em relação aos dados de hospitalização no MRJ.
A ausência de registros das unidades estaduais ou que não possuem conexão com a interface de aplicação foi uma limitação identificada com o uso de dados da RUE. O acesso aos registros foi limitado às unidades com conexão à API disponibilizada, restringindo a cobertura da análise do cenário epidemiológico do município. Contudo, a representatividade não foi fortemente comprometida, uma vez que o volume de dados corresponde a 82,0% das unidades da RUE do MRJ, com cobertura de nove entre as dez áreas de planejamento da cidade. Neste ponto, reitera-se que o monitoramento proposto cumpre seu papel quanto ao quesito de sensibilidade à mudança de tendências temporais, além de favorecer a detecção precoce e a prevenção de novos agravos, interesse essencial da VS 33. Ao considerar a dinâmica de doenças transmissíveis (como a Covid-19) e a importância de identificar áreas (foco/índice) para intervenções na cadeia de transmissão, a estratégia adotada permitiu direcionar oportunamente as ações de controle.
Por se tratar de uma nova abordagem metodológica na prática da vigilância em saúde no MRJ, o método de PLN baseado em regras permitiu avançar no uso de dados não estruturados antes não explorados e representou uma nova janela de possibilidades para o CIE no uso de fontes alternativas, na perspectiva da vigilância sindrômica e incorporação de inovações digitais para o SUS. Dado o avanço das análises a partir de metodologias mais sofisticadas na literatura, o modelo atual pode ainda não conseguir capturar completamente as variações contextuais e regionais das queixas, como observado em estudo recente 6. As limitações identificadas se caracterizaram pela alta demanda de trabalho manual, pois exige a criação e ajuste contínuo de um conjunto extensivo de regras para alcançar uma generalização adequada. Além disso, o desenvolvimento de regras específicas é um processo demorado e suscetível a constantes atualizações, já que o código requer manutenção frequente para acompanhar mudanças no uso da linguagem, variações e exceções linguísticas.
Conclusão

O estudo do campo textual das queixas de pacientes revelou maior estabilidade na análise de ?eries temporais, bem como maior abrangência na detecção de casos suspeitos de sarampo e rubéola no MRJ, em relação ao monitoramento pelo campo estruturado da CID. Como perspectivas futuras, o aprofundamento em técnicas recentes de PLN com uso de modelos de ML, DL e LLM já faz parte do planejamento do CIE, a fim de extrair sinais e sintomas de forma ainda mais sofisticada e considerando contextos gramaticais ainda não explorados pela técnica definida por regras.

Uma tarefa importante será a integração de dados de outras fontes, como dados da APS, dados laboratoriais e hospitalares, que se apresentam como peças-chave para melhorar a capacidade de monitoramento de tendências e disparo de alertas antecipados a partir de campos abertos. Esses avanços prometem ampliar a eficácia da vigilância, ao captar variações locais, e surtos em estágios iniciais, facilitando respostas mais ágeis e direcionadas.



Referências
1. Lee J, Yoon W, Kim S, Kim D, Kim S, So CH, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Wren J, editor. Bioinformatics. 2020 Feb 15;36(4):1234–40.
2. Paul MM, Greene CM, Newton-Dame R, Thorpe LE, Perlman SE, McVeigh KH, et al. The State of Population Health Surveillance Using Electronic Health Records: A Narrative Review. Popul Health Manag. 2015 Jun;18(3):209–16.
3. Xiao W, Jing L, Xu Y, Zheng S, Gan Y, Wen C. Different Data Mining Approaches Based Medical Text Data. Belmonte Fernández Ó, editor. J Healthc Eng. 2021 Dec 6;2021:1–11.
4. Bey R, Cohen A, Trebossen V, Dura B, Geoffroy PA, Jean C, et al. Natural language processing of multi-hospital electronic health records for public health surveillance of suicidality. Npj Ment Health Res. 2024 Feb 14;3(1):6.
5. Chen C, Zheng X, Liao S, Chen S, Liang M, Tang K, et al. The diabetes mellitus multimorbidity network in hospitalized patients over 50 years of age in China: data mining of medical records. BMC Public Health. 2024 May 29;24(1):1433.
6. Nobles M, Lall R, Mathes RW, Neill DB. Presyndromic surveillance for improved detection of emerging public health threats. Sci Adv. 2022 Nov 4;8(44):eabm4920.
7. Ferraro J, Ye Y, Gesteland P, Haug P, Tsui F, Cooper G, et al. The effects of natural language processing on cross-institutional portability of influenza case detection for disease surveillance. Appl Clin Inform. 2017 Apr;08(02):560–80.
8. Nadkarni PM, Ohno-Machado L, Chapman WW. Natural language processing: an introduction. J Am Med Inform Assoc JAMIA. 2011;18(5):544–51.
9. Osman M, Cooper R, Sayer AA, Witham MD. The use of natural language processing for the identification of ageing syndromes including sarcopenia, frailty and falls in electronic healthcare records: a systematic review. Age Ageing. 2024 Jul 2;53(7):afae135.
10. Harris J, Laurence T, Loman L, Grayson F, Nonnenmacher T, Long H, et al. Evaluating Large Language Models for Public Health Classification and Extraction Tasks [Internet]. arXiv; 2024 [cited 2024 Sep 30]. Available from: http://arxiv.org/abs/2405.14766
11. Sim J ah, Huang X, Horan MR, Stewart CM, Robison LL, Hudson MM, et al. Natural language processing with machine learning methods to analyze unstructured patient-reported outcomes derived from electronic health records: A systematic review. Artif Intell Med. 2023 Dec;146:102701.
12. Morais JHA, Cruz DMDOE, Saraceni V, Dias Ferreira C, Aguilar GMO, Cruz OG. O uso de fontes não-tradicionais para a vigilância em saúde: atendimentos de urgência para detecção precoce de eventos [Internet]. 2024 [cited 2024 Sep 30]. Available from: https://preprints.scielo.org/index.php/scielo/preprint/view/8996/version/9514
13. Oliveira e Cruz D, Dias Ferreira C, Freire de Carvalho L, Saraceni V, Durovni B, Cruz OG, et al. Inteligência epidemiológica, investimento em tecnologias da informação e as novas perspectivas para o uso de dados na vigilância em saúde. 8 [Internet]. 2024 set;40. Available from: https://www.scielosp.org/article/csp/2024.v40n8/e00160523/
14. Conway M, Dowling JN, Chapman WW. Using chief complaints for syndromic surveillance: A review of chief complaint based classifiers in North America. J Biomed Inform. 2013 Aug;46(4):734–43.
15. Silge J, Robinson D. tidytext: Text Mining and Analysis Using Tidy Data Principles in R. J Open Source Softw. 2016 Jul 11;1(3):37.
16. Guia de Vigilância Epidemiológica. Ms; 2009. (A. Normas e Manuais Técnicos).
17. R Core Team. R: A Language and Environment for Statistical Computing [Internet]. Vienna, Austria: R Foundation for Statistical Computing; 2024. Available from: https://www.R-project.org/
18. Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York; 2016.
19. Wickham H, Averick M, Bryan J, Chang W, McGowan L, François R, et al. Welcome to the Tidyverse. J Open Source Softw. 2019 Nov 21;4(43):1686.
20. Mühleisen H R. duckdb: DBI Package for the DuckDB Database Management System. 2024.
21. Mersmann O. sendmailR: Send Email Using R [Internet]. 2009 [cited 2024 Oct 15]. p. 1.4-0. Available from: https://CRAN.R-project.org/package=sendmailR
22. Chen H, Boutros PC. VennDiagram: a package for the generation of highly-customizable Venn and Euler diagrams in R. BMC Bioinformatics. 2011 Dec;12(1):35.
23. Campos VIeira G. camposvieira/pln_cie_mrj: CIE. Zenodo; 2025. Available from: https://doi.org/10.5281/zenodo.14747993
24. Morgan OW. How better pandemic and epidemic intelligence will prepare the world for future threats. Nat Med. 2022 Aug;28(8):1523–6.
25. Sahu KS, Majowicz SE, Dubin JA, Morita PP. NextGen Public Health Surveillance and the Internet of Things (IoT). Front Public Health. 2021 Dec 3;9:756675.
26. Xu L, Zhou C, Luo S, Chan DK, McLaws ML, Liang W. Modernising infectious disease surveillance and an early-warning system: The need for China’s action. Lancet Reg Health - West Pac. 2022 Jun;23:100485.
27. Seeskin ZH, LeClere F, Ahn J, Williams JA. Uses of Alternative Data Sources for Public Health Statistics and Policymaking: Challenges and Opportunities. 2018;
28. Mit Critical Data. Secondary Analysis of Electronic Health Records [Internet]. Cham: Springer International Publishing; 2016 [cited 2024 Sep 30]. Available from: http://link.springer.com/10.1007/978-3-319-43742-2
29. Saúde M da. Plano de ação para interrupção da circulação do vírus do sarampo?: monitoramento e reverificação da sua eliminação no Brasil, 2022. Brasília, DF: Ministério da Saúde; 2022.
30. Silva RPD, Pollettini JT, Pazin Filho A. Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19. Cad Saúde Pública. 2023;39(11):e00243722.
31. Ivanov O, Gesteland P, Hogan WR, Mundorff MB, Wagner M. Detection of Pediatric Respiratory and Gastrointestinal Outbreaks from Free-Text Chief Complaints. AMIA 2003 Symp Proc. 2003;318–22.
32. Olszewski RT. Bayesian Classification of Triage Diagnoses for the Early Detection of Epidemics. Am Assoc Artif Intell. 2003;412–6.
33. Organização Pan-Americana da Saúde. As funções essenciais de saúde pública nas Américas - uma renovação para o século 21. Marco conceitual e descrição [Internet]. Pan American Health Organization; 2022 [cited 2024 Oct 21]. Available from: https://iris.paho.org/handle/10665.2/55678
?


Outros idiomas:







Como

Citar

Vieira, G.C, Morais, J.H.A, Cruz, D.M.O, Ferreira, C.D, Tassinari, W., Saraceni, V., Aguilar, G.M.O, Cruz, O.G. Processamento de Linguagem Natural aplicado a registros eletrônicos: monitoramento e detecção de eventos em saúde. Cien Saude Colet [periódico na internet] (2025/fev). [Citado em 14/03/2025]. Está disponível em: http://cienciaesaudecoletiva.com.br/artigos/processamento-de-linguagem-natural-aplicado-a-registros-eletronicos-monitoramento-e-deteccao-de-eventos-em-saude/19506?id=19506&id=19506

Últimos

Artigos



Realização



Patrocínio