EN PT

Artigos

0032/2026 - Aderência de Modelos De Inteligência Artificial às Diretrizes Brasileiras para a Obesidade na Atenção Primária à Saúde
Adherence of Artificial Intelligence Models to Brazilian Guidelines for Obesity in Primary Health Care

Autor:

• Felipe da Fonseca Silva Couto - Couto, FFS - <felipe.couto@unifesspa.edu.br>
ORCID: https://orcid.org/0009-0004-8085-8118

Coautor(es):

• Carlos Podalirio Borges de Almeida - Almeida, C.P.B. - <carlosalmeida1410@hotmail.com>
ORCID: https://orcid.org/0000-0003-0254-4178



Resumo:

A obesidade representa um desafio crescente para a Atenção Primária à Saúde (APS), demandando a utilização de novas tecnologias e soluções inovadoras. Este estudo avaliou a aderência de Modelos de Linguagem de Grande Escala (LLMs) às diretrizes brasileiras para o manejo da obesidade na APS. Conduziu-se estudo experimental in silico em duas fases. Inicialmente, 62 LLMs passaram por triagem de latência com 24 atingindo o critério de usabilidade (<10s) e seguindo para a avaliação de conteúdo. A aderência clínica foi mensurada por 16 questões extraídas literalmente do Protocolo Clínico (PCDT), cobrindo diagnóstico, monitoramento e tratamento, revisada por pares (Kappa 0,68-1,00). A exclusão de 38 modelos (61%) por latência evidenciou barreiras de infraestrutura. Nos 24 modelos viáveis, a aderência foi heterogênea e limitada, com o melhor desempenho atingindo apenas 61,1% de conformidade. A correlação entre tamanho do modelo e acerto foi moderada, mas a multimodalidade mostrou-se preditora de melhor desempenho. Conclui-se que os LLMs atuais não oferecem segurança para atuação autônoma na APS, exigindo curadoria profissional rigorosa, validação contínua e mecanismos de escalonamento para o cuidado humano para garantir a segurança do usuário.

Palavras-chave:

Saúde digital; inteligência artificial; sobrepeso; obesidade; atenção primária à saúde.

Abstract:

Obesity represents a growing challenge for Primary Health Care (PHC), demanding the use of new technologies and innovative solutions. This study evaluated the adherence of Large Language Models (LLMs) to Brazilian guidelines for obesity management in PHC. An in silico experimental study was conducted in two phases. Initially, 62 LLMs underwent latency screening, with 24 meeting the usability criterion (<10s) and proceeding to content evaluation. Clinical adherence was measured by 16 questions extracted verbatim from the Clinical Protocol (PCDT), covering diagnosis, monitoring, and treatment, and was peer-reviewed (Kappa 0.68–1.00). The exclusion of 38 models (61%) due to latency highlighted infrastructure barriers. Among the 24 viable models, adherence was heterogeneous and limited, with the best performance reaching only 61.1% compliance. The correlation between model size and accuracy was moderate, but multimodality proved to be a predictor of better performance. It is concluded that current LLMs do not offer safety for autonomous operation in PHC, requiring rigorous professional curation, continuous validation, and escalation mechanisms to human care to ensure user safety.



Keywords:

Digital health; artificial intelligence; overweight; obesity; primary health care.

Conteúdo:

INTRODUÇÃO
A obesidade permanece um grave problema de saúde pública global, apesar dos esforços contínuos de autoridades, comunidade acadêmica, profissionais, instituições e usuários dos sistemas de saúde. O aumento constante dessa condição é amplamente documentado1. No Brasil, projeta-se crescimento acelerado da obesidade: até março de 2025, 68% da população apresentava IMC ? 25 kg/m², com estimativa de 119,16 milhões de adultos até 20302, cenário este que repercute diretamente na morbimortalidade do usuário.
Por constituir a principal porta de entrada do Sistema Único de Saúde (SUS), a Atenção Primária à Saúde (APS) é estratégica e essencial no enfrentamento desta realidade¹.
Nesse sentido, o Ministério da Saúde (MS) estabelece diretrizes e protocolos clínicos voltados à padronização e qualificação dessa linha de cuidado³.
Apesar da centralidade da APS, o manejo da obesidade ainda enfrenta diversos desafios, exigindo abordagens que favoreçam o autocuidado e a adesão ao tratamento. A complexidade da condição demanda atuação multiprofissional e superação de barreiras para profissionais e usuários4,5.
A saúde digital, por meio de tecnologias da informação e comunicação, surge como alternativa promissora para aprimorar a gestão e ampliar o acesso ao cuidado6. Nessa seara, Modelos de Linguagem de Grande Escala (LLMs), subgrupo da Inteligência Artificial, despontam como ferramentas de apoio à decisão clínica, embora seu desempenho dependa de aspectos técnicos como tamanho, modalidade e data limite de conhecimento.
É também fundamental que o cuidado ao sobrepeso e à obesidade siga rigor um técnico-científico para assegurar a eficiência das redes de atenção. Nesse sentido, diretrizes publicadas por instituições como a Associação Brasileira para o Estudo da Obesidade e Síndrome Metabólica (ABESO) e o MS são fundamentais para a padronização das ações e a qualificação do tratamento e da prevenção.3,5,10.
Diante do potencial dos LLMs, da existência de diretrizes nacionais e da implementação de soluções digitais na APS, este estudo objetiva investigar a aderência dos LLMs às recomendações e diretrizes para o manejo do sobrepeso e da obesidade6-8,10. Tal avaliação é crucial para garantir que a incorporação dos LLMs nessa linha de cuidado seja orientada por rigor metodológico, assegurando eficácia, segurança e alinhamento às demandas da APS.

MÉTODO
Delineamento Do Estudo
Trata-se de um estudo experimental do tipo in silico, destinado a avaliar o desempenho de diferentes LLMs na aderência às Diretrizes Brasileiras para o controle da obesidade na APS. O referido processo de avaliação se deu exclusivamente em ambiente computacional, utilizando instrumentos e dados públicos e sem envolvimento de participantes humanos.
A avaliação foi estruturada em duas fases sequenciais: uma análise inicial de viabilidade por tempo de execução para todos os modelos incluídos e uma subsequente avaliação de aderência clínica apenas para o subgrupo de modelos considerados viáveis via Interface de Programação de Aplicação (API).
A IA, através de LLMs, foi empregada neste estudo exclusivamente como objeto central da investigação. Nenhuma ferramenta de IA generativa foi utilizada para a redação, análise de dados ou elaboração de qualquer outra parte do presente estudo.

Seleção dos Modelos de Linguagem de Grande Escala
A seleção dos modelos foi realizada em três etapas para assegurar abrangência e atualidade, com data de corte em 6 de julho de 2025. Primeiramente, utilizou-se como base a lista de LLMs do Projeto BRIDGE11. Em seguida, essa lista foi complementada com uma busca por lançamentos recentes no repositório Hugging Face. Por fim, foram incluídos modelos notórios disponíveis na plataforma OpenRouter que não constavam nas fontes anteriores. Essa abordagem trifásica garante uma análise representativa do estado da arte em LLMs.
Para serem incluídos, os LLMs deveriam atender aos seguintes critérios: (a) Tipo de modelo: Ser um LLM conversacional com arquitetura textual ou multimodal (texto e imagem), para garantir uma comparação funcionalmente justa e mitigar vieses de desempenho; (b) Acessibilidade: Estar publicamente acessível via API oficial e estável. Este critério assegura a reprodutibilidade do estudo e foca em modelos oferecidos como serviço (MaaS), evitando variáveis de confusão de auto-hospedagem; (c) Capacidade linguística: Possuir suporte documentado para o português ou capacidade multilíngue, focando a avaliação no raciocínio clínico em vez da proficiência linguística; (d) Controle de parâmetros: Permitir o ajuste do parâmetro temperature = 0 via API, para maximizar o determinismo das respostas e a reprodutibilidade do estudo.
Adicionalmente, foram aplicados os seguintes critérios de exclusão: (a) Versões instáveis: Modelos em fases de desenvolvimento (beta, alpha), cujo desempenho volátil não representaria a versão final; (b) Modelos legados: Modelos descontinuados cujos provedores recomendam a migração para versões mais recentes; (c) Modelos especializados: Modelos com fine-tuning para tarefas de raciocínio específicas, pois não representam LLMs de propósito geral e poderiam introduzir viés de performance.

Instrumento De Avaliação
A construção do instrumento de avaliação baseou-se no mapeamento sistemático da linha de cuidado integral da obesidade descrita no PCDT, assegurando validade de conteúdo e representatividade clínica. As questões foram organizadas nos quatro eixos estruturantes da Atenção Primária: diagnóstico e estratificação de risco (questões 1 a 3), monitoramento clínico longitudinal (questões 4 e 5), intervenção terapêutica multicomponente (questões 6 a 12) e manejo de situações especiais e grupos vulneráveis (questões 13 a 16). As 16 questões foram transcritas literalmente do Anexo 3 do PCDT, com o objetivo de preservar a terminologia normativa do SUS e avaliar a capacidade dos modelos em interpretar a linguagem técnica oficial sem adaptações semânticas.

Procedimentos De Testagem In Silico
A testagem dos LLMs foi realizada de forma automatizada via APIs oficiais, por meio de scripts em Python (v3.11.9), submetendo-se as 16 questões do PCDT a cada modelo. Para garantir reprodutibilidade, os parâmetros de geração foram padronizados para máxima determinação (temperature = 0 e seed = 123, quando disponível). As respostas, os parâmetros utilizados e o tempo de processamento foram registrados automaticamente, sendo os dados posteriormente exportados em formato .CSV para análise estatística.

Análise Dos Dados
A análise dos dados foi conduzida em três etapas sequenciais, refletindo a abordagem de afunilamento dos modelos com base em sua viabilidade prática a partir do princípio de usabilidade de Nielsen (2010)12.
Análise de Viabilidade por Tempo de Execução
Na primeira etapa, foi avaliado o desempenho de todos os 62 LLMs incluídos quanto ao tempo de execução das respostas. A normalidade foi testada pelo teste de Shapiro–Wilk e a homogeneidade das variâncias pelo teste de Levene. Diante da não normalidade em múltiplos grupos e da heterogeneidade das variâncias, a comparação global foi realizada por meio do teste não paramétrico de Kruskal–Wallis.
Definição do Subgrupo de Modelos Viáveis para Análise de Aderência
Com base nos resultados da primeira etapa, foi aplicado o critério de viabilidade para a implementação em sistemas via API, com o tempo de resposta inferior a 10 segundos para cada resposta12. Apenas os 24 modelos que apresentaram tempo de execução consistentemente abaixo desse limiar foram incluídos no subgrupo para a análise de aderência clínica.
Avaliação da Aderência Clínica dos Modelos Viáveis
Na etapa final, a avaliação de aderência foi realizada apenas para o subgrupo de modelos considerados viáveis. As respostas foram analisadas de forma cega por dois revisores independentes (FFSC e CPBA), utilizando a matriz de aderência previamente definida (Quadro 1). Cada item foi pontuado de forma dicotômica (1 = presente; 0 = ausente), permitindo o cálculo do percentual de aderência. A concordância interavaliadores foi estimada pelo Kappa de Cohen, e as divergências foram resolvidas por consenso.

Quadro 1

Após a avaliação da aderência, foram realizadas análises estatísticas adicionais para explorar a relação entre características dos modelos e desempenho. A associação entre tamanho do modelo, data de corte do conhecimento e percentual de aderência ao PCDT foi avaliada pelo coeficiente de correlação de Spearman. A identificação de agrupamentos foi feita por meio de clusterização não hierárquica pelo método k-means (k=3), definido pelo método Elbow. Adicionalmente, foi conduzida uma análise de custo-efetividade, restrita aos cinco modelos com maior aderência, utilizando-se a razão entre percentual de aderência e custo por milhão de tokens de saída, a fim de evitar distorções por modelos de baixo custo e desempenho clinicamente inaceitável. Por fim, os preditores de desempenho foram investigados por regressão linear múltipla, considerando como variável dependente a aderência ao PCDT e, como independentes, o tamanho do modelo, o custo e a modalidade (textual vs. multimodal), adotando-se p < 0,05 como nível de significância.

RESULTADOS
Características gerais dos estudos incluídos
145 LLMs foram identificados entre os repositórios. Desses, 83 foram excluídos por apresentarem um ou mais critérios de exclusão apresentados na Tabela S1. Finalmente, 62 LLMs foram incluídos neste estudo13-41. O processo de identificação e triagem encontra-se sumarizado na Figura 1
A distribuição geográfica das sedes de desenvolvimento dos 62 modelos avaliados revelou forte concentração de desenvolvimento nos EUA com 35 modelos (56,5%) e na China com 18 modelos (29,0%), além da predominância de licenças proprietárias ou Apache 2.0. As características gerais e técnicas, como tamanho e data de conhecimento, demonstraram-se amplamente heterogêneas e encontram-se categorizadas por modelo na Tabela S2.
No que diz respeito à análise dos custos em API dos modelos avaliados, se revelou uma ampla variação no custo por milhão de tokens processados, tanto para tokens de entrada quanto de saída. Modelos reconhecidos por sua alta performance, como o Claude Opus 419 e o GPT-4o35, apresentaram custos substancialmente superiores (USD 15,00 para entrada e USD 75,00 para saída) quando comparados a modelos otimizados para redução de custo, como Llama 3.2 1B27, Command R7B20 e Qwen 3 0.6B16, cujos valores permaneceram próximos de USD 0,01 a USD 0,42 por milhão de tokens processados. Os valores de entrada e saída de todos os LLMs , encontram-se elencados na Tabela S3.

Fig.1

Análise estatística
3.2.1 Tempos de execução dos modelos
A análise dos tempos de execução dos 62 modelos revelou uma heterogeneidade estatisticamente significativa, variando entre 1,14 e 36,5 segundos (Kruskal-Wallis, p < 0,001), conforme demonstrado na Tabela S4. Assim, vinte e quatro modelos13,15,16,18,20,22-24,27,29,31,33-35,40 apresentaram tempos de resposta consistentemente inferiores a 10 segundos, sendo considerados viáveis para API12.
Para este subgrupo, a concordância entre os avaliadores foi de substancial a quase perfeita (Kappa de Cohen: 0,682 a 1,000). O desempenho dos modelos demonstrou grande heterogeneidade, com o percentual de aderência ao PCDT variando de um mínimo de 19,4% no modelo Qwen 3 0.6B16 a um máximo de 61,11% no modelo Gemini 2.0 Flash-Lite23. Outros modelos com desempenho notável foram Grok 3 mini fast40, Command A20, GPT 4.1 mini34 e Gemma 3 4B22 com 58,33% de aderência (Tabela 1).

Tab.1

A análise das características dos modelos revelou que, embora o tamanho (número de parâmetros) tenha uma correlação positiva com a aderência às diretrizes (rho = 0,58), ele não é o único fator determinante, como evidenciado pela análise de cluster (Figura 2). De fato, a análise de regressão múltipla mostrou que a multimodalidade foi o único preditor estatisticamente significativo, com modelos exclusivamente textuais apresentando uma aderência 11,1 pontos percentuais inferior à dos modelos multimodais (p = 0,028). A data de atualização do conhecimento do modelo não mostrou correlação com o desempenho (rho = -0,29; p = 0,30). O custo operacional não apresentou associação estatisticamente significativa com a aderência (? = 1,29; p = 0,075), assim como o tamanho do modelo (? = -0,005; p = 0,81).
Em termos de custo-efetividade, o Gemini 2.0 Flash-Lite destacou-se entre os cinco modelos de melhor desempenho, oferecendo a melhor relação entre alta aderência (61,11%) e bom índice de Custo-Efetividade (CE = 204)23, seguido pelo Gemma 3 4B (CE = 146)22. Embora modelos como GPT 4.1 mini34, Grok 3 mini fast40 e Command A20 tenham exibido aderências similares, seus CE se mostraram criticamente reduzidos (36, 15 e 6 respectivamente), resultando em índices de custo-efetividade inferiores, como evidenciado na Figura 3.

Fig.2

Fonte: Elaborado pelos autores. Nota: O gráfico exibe os modelos de linguagem viáveis e com tamanho reportado, agrupados por similaridade (k-means) em três painéis. A linha tracejada, replicada no painel, representa a tendência de regressão linear geral para todos os pontos, com seu intervalo de confiança de 95%. Painel 1 agrupa os modelos de maior aderência, que se posicionam acima ou sobre a linha de tendência. Painel 2 reúne modelos de menor porte e aderência, localizados abaixo da tendência geral. Painel 3 isola o modelo outlier de grande porte (Llama 4 Maverick), cujo desempenho se alinha à tendência esperada para seu tamanho.

Fig.3

Fonte: Elaborado pelos autores. Nota: O gráfico de dispersão compara o custo por milhão de tokens de saída (em dólar americano) com o percentual de aderência. O rótulo de cada ponto indica o nome do modelo e seu respectivo índice de Custo-Efetividade (CE), calculado como a razão entre a aderência e o custo.

DISCUSSÃO
Aderência de modelos viáveis por APIs e suas implicações para a Atenção Primária
A análise dos modelos acessíveis por API revelou um achado central: mesmo entre os 24 modelos com tempo de execução viável (inferior a 10 segundos, limite de usabilidade de Nielsen12), a aderência máxima ao protocolo de obesidade (PCDT) foi de apenas 61,11%. Este resultado indica que nenhuma LLM atual oferece suporte informacional com alta confiabilidade no contexto da linha de cuidado do sobrepeso e da obesidade na APS. Esta realidade converge com os achados da revisão sistemática de Maity e Saikia (2025)41 que citam a produção recorrente de respostas incorretas por LLMs no contexto de saúde e apontam para os riscos inerentes desse comportamento. De forma semelhante Busch et al. (2025)42 relata a possibilidade da obtenção de respostas enganosas ou mesmo prejudiciais ao usuário. Ou seja, não se trata de um comportamento casual, mas sim um reflexo de limitações fundamentais documentadas na literatura.
Para entender essa limitação, o presente estudo observou através da análise estatística que, embora modelos maiores tendam a ter melhor desempenho (correlação de Spearman, rho = 0,58), o tamanho não é um fator isolado. Nesse sentido, AlSaad et al. (2024)43 aponta que modelos menores, porém especializados (pré-treinados ou ajustados com dados médicos de alta qualidade), podem apresentar desempenho comparável, ou até superior, em tarefas clínicas específicas, principalmente quando comparados a grandes modelos, porém genéricos.
Essa estreita relação entre processo de aprendizagem e desemprenho das LLMs apontada por AlSaad et al. (2024)43 provavelmente seja a causa mais provável para a baixa aderência geral, tendo em vista o viés de origem nos dados de treinamento. Desenvolvidos majoritariamente nos EUA e China (85,5%), os LLMs refletem contextos do Norte Global, sendo o PCDT brasileiro um nicho de conhecimento em português pouco representado em seus dados. Diretrizes específicas como o PCDT, que orienta a prática clínica no contexto da APS, representam um nicho de conhecimento altamente especializado e em português, que provavelmente constitui uma fração ínfima do corpus de treinamento.
Tendo em vista o risco clínico/informacional atrelado a uma aderência subótima, utilizar esses LLMs sem curadoria na APS poderia induzir a erros ou omissões em quase 40% das recomendações, comprometendo a segurança do usuário. Fica claro que, apesar do avanço, os modelos atuais carecem de ajuste fino com fontes de dados específicas do SUS.
Diante disso, a implementação segura dessas tecnologias exige uma abordagem multifacetada. Primeiramente, é imperativo o ajuste fino (fine-tuning) de modelos com fontes de dados locais. Essa ação, como aponta Yang et al. (2025) tem o potencial de melhorar o desempenho dessas ferramentas, desde que respeitado o equilíbrio entre expertise (fine-tuning) e compreensão contextual genérica. Em segundo lugar, o uso atual deve se restringir a um papel auxiliar, nunca substituindo o julgamento clínico. Por fim, o design dos sistemas deve ser orientado à segurança, incorporando avisos de isenção de responsabilidade (disclaimers) proeminentes e mecanismos de escalonamento que garantam uma transição clara da interação automatizada para o atendimento humano, assegurando a continuidade do cuidado.

Custos de Implementação por APIs
Além das barreiras de desempenho e segurança já discutidas, a viabilidade de implementação de sistemas baseados em LLMs na saúde pública enfrenta uma terceira dimensão crítica: o custo operacional. A análise de custos por API revelou ampla disparidade entre os modelos, variando de US$ 0,01 por milhão de tokens no Llama 3.2 1B a US$ 75,00 no custo de saída do Claude Opus 4. Essa heterogeneidade impõe a ponderação entre aderência clínica, tempo de resposta e custo para viabilizar a sustentabilidade em larga escala. No contexto do SUS, especialmente da APS, onde a escalabilidade é crucial, a limitação orçamentária restringe a adoção de modelos mais robustos, configurando a seleção de LLMs como uma decisão tecno-econômica complexa, cujo equilíbrio determinará não apenas o impacto potencial da tecnologia, mas, sobretudo, a equidade no seu acesso.
Nesse sentido, a análise de custo-efetividade aplicada de forma genérica e sem qualquer ponderação pode privilegiar modelos de baixíssimo custo, mas que apresentam aderência informacional inaceitável, caso replicável neste estudo, onde o modelo Llama 3.2 1B apresentou o maior índice de custo-efetividade, porém sem relevância dada sua performance em aderência inferior a 35%. Por outro lado, ao privilegiar os modelos com melhor aderência, a análise de custo-efetividade se faz mais útil e coerente.
Assim, ao proceder à análise dos cinco modelos de melhor desempenho, o estudo revelou que o Gemini 2.0 Flash-Lite, apesar de não ser o mais barato em termos absolutos, apresentou o melhor índice de custo-efetividade, seguido pelo Gemma 3 4B. Por outro lado, modelos com desempenho de aderência similar, como GPT 4.1 mini e Command A, mostraram-se significativamente mais custosos, resultando em uma menor eficiência. Este achado reforça que, para o SUS, a escolha mais estratégica pode não ser o modelo mais potente ou o mais barato, mas aquele que oferece o maior retorno clínico/informacional por unidade monetária investida, um fator crucial para a sustentabilidade de implementações em larga escala.

Soberania Digital e Infraestrutura no SUS
A dependência de APIs proprietárias impõe barreiras de custo e latência, além de riscos à soberania de dados. A viabilidade de LLMs no SUS demanda a superação do modelo de acesso remoto (proprietário) em favor de infraestrutura própria de alto desempenho, prevista na Estratégia de Saúde Digital para o Brasil 2020-2028 (ESD28)6 e no o Plano Brasileiro de Inteligência Artificial (PBIA)44. Isso permitiria a execução local de modelos abertos, eliminando a latência de rede e garantindo alinhamento ético e técnico às diretrizes nacionais através de treinamento específico (fine-tuning), superando o dilema entre modelos proprietários de alto custo e a autonomia tecnológica.
Além disso, a escolha estratégica de um LLM para o contexto do SUS pode ser orientada por preditores objetivos de desempenho. Neste estudo, a regressão linear múltipla demonstrou que o tamanho do modelo, medido pelo número de parâmetros, não foi um preditor estatisticamente significativo de maior aderência (p = 0,81). Em contraste, a modalidade do modelo foi o único preditor significativo (p = 0,028), com os modelos multimodais apresentando, em média, 11,1% maior aderência em relação aos modelos exclusivamente textuais. Esse achado possui elevada relevância estratégica e é consistente com evidências da literatura, como em AlSaad et al. (2024)43 que demonstram ganhos em acurácia diagnóstica, planejamento terapêutico, personalização do cuidado e eficiência administrativa. Tal superioridade é explicada pela capacidade dos modelos multimodais de interpretar imagens e documentos clínicos. Assim, a adoção de modelos multimodais mostra-se mais estratégica do que a simples escolha de modelos com maior número de parâmetros.

Considerações Metodológicas e Limitações
Uma premissa metodológica deste estudo foi a avaliação dos LLMs em condições compatíveis com a implementação no SUS em seu contexto atual. Assim, ao conduzir o estudo em duas etapas: análise do tempo de resposta dos 62 modelos e avaliação de aderência dos 24 que atenderam ao critério de usabilidade (?10 segundos por resposta), demonstrou-se a evidente necessidade de uma infraestrutura dedicada de HPC no sistema público.
Contudo, essa triagem sequencial também impôs uma limitação significativa nos resultados deste estudo. Ao excluir 38 modelos da análise de aderência com base na latência via API, é possível que modelos com potencial de alta precisão clínica tenham sido descartados. Modelos que operam com maior latência em uma infraestrutura remota e compartilhada poderiam, em um ambiente de nuvem privada ou com hardware dedicado no SUS, performar abaixo do limiar de 10 segundos e, eventualmente, apresentar uma aderência superior à dos modelos mais rápidos aqui analisados.
Outrora, a simples análise das aderências de modelos não viáveis via API carece de significado à medida que uma outra limitação deste estudo diz respeito à volatilidade e constante atualização desses LLMs. Ou seja, essa análise só encontrará fundamento no momento em que uma infraestrutura dedicada ao SUS estiver disponível.
A supracitada volatilidade se faz evidente à medida que o ano de corte do conhecimento dos modelos incluídos se estende até meados de 2025, com constante lançamento de novas versões de modelos e corroborando com o fato de que o desempenho de um LLM não é estático. Assim, o modelo Gemini 2.0 Flash-Lite23 que obteve melhor desempenho neste estudo com 61,11% de aderência pode, após uma atualização silenciosa, regredir ou alterar a natureza de suas respostas. Essa dinâmica torna a validação pontual, como a realizada neste trabalho, um retrato instantâneo, e não uma garantia de desempenho longitudinal. Dessa forma, para uma implementação segura no contexto da saúde, seria necessário um sistema de monitoramento e validação contínua, um desafio regulatório e técnico ainda não resolvido.
O modelo tradicional de avaliação de tecnologias em saúde, como o praticado pela Comissão Nacional de Incorporação de Tecnologias no SUS (Conitec), baseia-se em avaliações pontuais de eficácia e segurança de tecnologias duras e estáticas, como medicamentos ou dispositivos. Este paradigma é fundamentalmente inadequado para tecnologias dinâmicas como os LLMs. Consequentemente, as limitações aqui discutidas refletem menos as fraquezas do desenho experimental e mais os desafios estruturais e de governança que a saúde pública enfrentará para incorporar essas tecnologias de forma segura e eficaz. A concretização da visão da ESD28 e do PBIA dependerá não apenas da aquisição de tecnologia, mas da criação de um novo arcabouço regulatório e de governança capaz de gerenciar o ciclo de vida dinâmico da IA nos contextos de saúde.

CONCLUSÃO
Este estudo demonstrou que, embora a aplicação LLMs na APS apresente um potencial transformador, sua implementação prática enfrenta barreiras críticas de desempenho, segurança e custos. A avaliação in silico de 62 LLMs revelou que, mesmo entre os 24 modelos com tempo de resposta viável para interação em tempo real via API, a aderência às diretrizes brasileiras para sobrepeso e obesidade permanece modesta, com um desempenho máximo de apenas 61,11%.
A análise aprofundada dos resultados indicou que modelos com maior número de parâmetros e capacidades multimodais tendem a apresentar maior aderência, mas essa correlação não é absoluta, sugerindo que o tamanho por si só não garante a precisão clínica. Por sua vez, a baixa conformidade geral pode ser atribuída a um viés inerente aos dados de treinamento, majoritariamente oriundos do Norte Global e desvinculados das especificidades do SUS. Este cenário reforça a conclusão de que o uso atual desses modelos deve se restringir a um papel estritamente auxiliar ao usuário final, sempre acompanhado de curadoria rigorosa, mecanismos de escalonamento para atendimento humano e alertas claros sobre suas limitações.
O dilema entre modelos proprietários de alto custo e modelos de código aberto, que oferecem maior soberania e potencial de customização, mas demandam investimento em infraestrutura e capacitação, emerge como uma decisão estratégica central para o SUS. A viabilidade da IA na saúde pública brasileira está, portanto, condicionada não apenas ao avanço tecnológico, mas fundamentalmente à construção de uma infraestrutura digital robusta, a políticas de validação contínua que lidem com a volatilidade dos modelos e a um investimento estratégico em soluções que possam ser treinadas e alinhadas à realidade nacional. Sem esses pilares, o potencial da IA corre o risco de permanecer restrito, ampliando, ao invés de reduzir, as iniquidades em saúde.

CONTRIBUIÇÕES DOS AUTORES
Os autores contribuíram de forma substancial para o desenvolvimento deste manuscrito. FFSC concebeu o estudo, realizou a coleta e análise dos dados e redigiu a versão inicial do manuscrito. CPBA participou da coleta de dados e contribuiu para a análise dos dados. Ambos os autores revisaram criticamente o texto, contribuíram para as revisões subsequentes e aprovaram a versão final do manuscrito.
Declaração de Disponibilidade de Dados
As fontes dos dados utilizados na pesquisa estão indicadas no corpo do artigo.
REFERÊNCIAS
1. Canazas VMA, Faustino CG, Medeiros FA. Análise espacial da obesidade na população adulta usuária da atenção primária à saúde do Sistema Único de Saúde: Brasil, 2021. Revista Brasileira de Obesidade, Nutrição e Emagrecimento 2022;16(102):569–76.
2. World Obesity Federation. World Obesity Atlas 2025. London: World Obesity Federation; 2025.
3. Ministério da Saúde (BR). Protocolo Clínico e Diretrizes Terapêuticas (PCDT) para sobrepeso e obesidade em adultos. Brasília: Ministério da Saúde; 2022.
4. Silva ACF, Barbosa RMS, Abreu LC, Oliveira ACC. O cuidado do adolescente com obesidade na atenção primária à saúde: perspectivas de gestores e profissionais de saúde. Rev Bras Enferm 2023;76(1):e20220045.
5. Ministério da Saúde (BR). Manual de atenção às pessoas com sobrepeso e obesidade no âmbito da Atenção Primária à Saúde (APS) do Sistema Único de Saúde. Brasília: Ministério da Saúde; 2022.
6. Ministério da Saúde (BR). Secretaria-Executiva. Departamento de Informática do SUS. Estratégia de Saúde Digital para o Brasil 2020–2028 [recurso eletrônico]. Brasília: Ministério da Saúde; 2020.
7. Oliveira BR. Ensaio sobre a utilização da inteligência artificial na saúde. In: Fronteiras das Ciências da Saúde: tópicos atuais e perspectivas. 2024;2:47–57.
8. Vieira TLCCM. Uso de inteligência artificial no processo avaliativo do residente multiprofissional de saúde: uma revisão da literatura. Revista Foco 2024;17(12):172–82.
9. Cetic.br. Inteligência artificial na saúde: potencialidades, riscos e perspectivas para o Brasil. São Paulo: NIC.br; 2024.
10. Associação Brasileira para o Estudo da Obesidade e da Síndrome Metabólica (ABESO). Diretrizes brasileiras de obesidade 2016. São Paulo: ABESO; 2016.
11. Wu J, Gu B, Zhou R, Xie K, Snyder D, Jiang Y, et al. BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [preprint]. arXiv:2504.19467. 2025. Disponível em: https://arxiv.org/abs/2504.19467
12. Nielsen J. Website response times [Internet]. 2010 [acessado 2024 Jul 27]. Disponível em: https://www.nngroup.com/articles/website-response-times
13. AI21labs. AI21-Jamba-Mini-1.7 [Internet]. Hugging Face; [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/ai21labs/AI21-Jamba-Mini-1.7
14. AI21labs. AI21-Jamba-Large-1.7 [Internet]. Hugging Face; [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/ai21labs/AI21-Jamba-Large-1.7
15. Qwen Team. Qwen2.5 Technical Report [Internet]. Qwen Team; 2025 [acessado 2025 Jul 20]. Disponível em: https://huggingface.co/Qwen
16. Qwen Team. Qwen3 Technical Report [Internet]. Qwen Team; 2025 [acessado 2025 Jul 20]. Disponível em: https://huggingface.co/Qwen
17. Amazon Artificial General Intelligence. Amazon Nova Premier: Technical Report and Model Card [Internet]. Seattle: Amazon; 2025 [acessado 2025 Jul 20]. Disponível em: https://www.amazon.science/publications/the-amazon-nova-family-of-models-technical-report-and-model-card
18. Amazon Artificial General Intelligence. The Amazon Nova Family of Models: Technical Report and Model Card [Internet]. Seattle: Amazon; 2024 [acessado 2025 Jul 20]. Disponível em: https://www.amazon.science/publications/the-amazon-nova-family-of-models-technical-report-and-model-card
19. Anthropic. Claude 4 System Card: Claude Opus 4 & Claude Sonnet 4 [Internet]. San Francisco: Anthropic; 2025 [acessado 2025 Jul 20]. Disponível em: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

20. Cohere. Command A: An Enterprise-Ready Large Language Model [Internet]. Toronto: Cohere; 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2504.00698
21. DeepSeek-AI. DeepSeek-V3 Technical Report [Internet]. 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2412.19437
22. Gemma Team; Google DeepMind. Gemma 3 Technical Report [Internet]. 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2503.19786
23. Gemini Team; Google. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities [Internet]. 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2507.06261
24. Saon G, Dekel A, Brooks A, Nagano T, Daniels A, Satt A, Mittal A, Kingsbury B, Haws D, Morais E, et al. Granite-speech: open-source speech-aware LLMs with strong English ASR capabilities [preprint]. arXiv:2505.08699v2. 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2505.08699
25. Meta. Llama-3.3-70B-Instruct [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
26. Meta. Llama-3.2-3B-Instruct [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct
27. Meta. Llama-3.2-1B [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/meta-llama/Llama-3.2-1B
28. Meta. Llama-4-Scout-17B-16E-Instruct [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct
29. Meta. Llama-4-Maverick-17B-128E-Instruct [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct
30. Abdin M, Aneja J, Behl H, Bubeck S, Eldan R, Gunasekar S, et al. Phi-4 Technical Report [Internet]. Microsoft Research; 2025 [acessado 2025 Jul 20]. Disponível em: https://arxiv.org/abs/2412.08905
31. MistralAI. Mistral-Large-Instruct-2411 [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/mistralai/Mistral-Large-Instruct-2411
32. MistralAI. Mistral-Small-3.2-24B-Instruct-2506 [Internet]. Hugging Face; 2025 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/mistralai/Mistral-Small-3.2-24B-Instruct-2506
33. MistralAI. Ministral-8B-Instruct-2410 [Internet]. Hugging Face; 2024 [acessado 2025 Jun 13]. Disponível em: https://huggingface.co/mistralai/Ministral-8B-Instruct-2410
34. OpenAI. Introducing GPT-4.1 in the API [Internet]. OpenAI; 2025 Apr 14 [acessado 2025 Jun 23]. Disponível em: https://openai.com/index/gpt-4-1/
35. OpenAI. GPT-4o System Card [Internet]. San Francisco: OpenAI; 2024 [acessado 2025 Jun 20]. Disponível em: https://openai.com/research/gpt-4o-system-card
36. xAI. Grok-4-0709 [Internet]. xAI Documentation; 2024 [acessado 2025 Jul 9]. Disponível em: https://docs.x.ai/docs/models/grok-4-0709
37. xAI. Grok-3 [Internet]. xAI Documentation; 2024 [acessado 2025 Jun 13]. Disponível em: https://docs.x.ai/docs/models/grok-3
38. xAI. Grok-3-mini [Internet]. xAI Documentation; 2024 [acessado 2025 Jun 13]. Disponível em: https://docs.x.ai/docs/models/grok-3-mini
39. xAI. Grok-3-fast [Internet]. xAI Documentation; 2024 [acessado 2025 Jun 13]. Disponível em: https://docs.x.ai/docs/models/grok-3-fast
40. xAI. Grok-3-mini-fast [Internet]. xAI Documentation; 2024 [acessado 2025 Jun 13]. Disponível em: https://docs.x.ai/docs/models/grok-3-mini-fast
41. Maity S, Saikia MJ. Large Language Models in Healthcare and Medical Applications: A Review. Bioengineering (Basel) 2025;12(6):631.
42. Busch F, Hoffmann L, Rueger C, van Dijk EH, Kader R, Ortiz-Prado E, Makowski MR, Saba L, Hadamitzky M, Kather JN, Truhn D, Cuocolo R, Adams LC, Bressem KK. Current applications and challenges in large language models for patient care: a systematic review. Commun Med (Lond) 2025;5(1):26.
43. AlSaad R, Abd-alrazaq A, Boughorbel S, Ahmed A, Renault M, Damseh R, Sheikh J. Multimodal Large Language Models in Health Care: Applications, Challenges, and Future Outlook. J Med Internet Res 2024;26:e59505.
44. Conselho Nacional de Ciência e Tecnologia (Brasil). IA para o Bem de Todos: Proposta de Plano Brasileiro de Inteligência Artificial 2024–2028 [Internet]. Brasília, DF: Conselho Nacional de Ciência e Tecnologia; 2024. Disponível em: https://www.gov.br/



Outros idiomas:







Como

Citar

Couto, FFS, Almeida, C.P.B.. Aderência de Modelos De Inteligência Artificial às Diretrizes Brasileiras para a Obesidade na Atenção Primária à Saúde. Cien Saude Colet [periódico na internet] (2026/jan). [Citado em 30/01/2026]. Está disponível em: http://cienciaesaudecoletiva.com.br/artigos/aderencia-de-modelos-de-inteligencia-artificial-as-diretrizes-brasileiras-para-a-obesidade-na-atencao-primaria-a-saude/19930?id=19930&id=19930

Últimos

Artigos



Realização



Patrocínio