0169/2026 - DISTORÇÕES NOS DADOS DE COVID-19 À LUZ DA LEI DE BENDFORD: COMPARAÇÃO INTERNACIONAL E EVIDÊNCIAS SOBRE O BRASIL
Distortions in COVID-19 Data in Light of Benford's Law: International Comparison and Evidence on Brazil
Autor:
• Taina Barbie do Espírito Santo - Espírito Santo, TB - <tainabarbie7@gmail.com>ORCID: https://orcid.org/0000-0001-5142-483X
Coautor(es):
• Alexandra Crispim Boing - Boing, AC - <acboing@gmail.com>ORCID: https://orcid.org/0000-0001-7792-4824
Resumo:
O estudo analisou a confiabilidade dos dados de casos e óbitos por Covid-19 nos países com maior número de registros: EUA, Índia, França, Alemanha, Brasil e Japão, com base na conformidade com a Lei de Bendford (LB) entre 2020 e 2022. Trata-se de um estudo descritivo com abordagem quantitativa, com dados secundários da Universidade Johns Hopkins. Aplicaram-se testes estatísticos propostos por Nigrini, como o do primeiro segundo dígitos, teste da soma, Qui-quadrado e desvio médio absoluto. O Brasil foi o único país a não apresentar conformidade com a LB nos registros de casos. Para os óbitos, apenas EUA e Japão tiveram conformidade estrita ou aceitável, o Brasil apresentou conformidade marginalmente aceitável, enquanto França, Alemanha e Índia apresentaram desvios. Conclui-se que a LB é útil como triagem, mas seus resultados devem ser interpretados com cautela, dada a influência das dinâmicas epidêmicas e limitações metodológicas. Reforça-se a necessidade de sistemas de informação mais robustos, oportunos e integrados para garantir maior confiabilidade dos dados epidemiológicos.Palavras-chave:
Lei de Benford; Covid-19; confiabilidade dos dados; vigilância epidemiológica; sistemas de informação.Abstract:
The study evaluated the reliability of Covid-19 case and death data in the countries with the highest number of records: the United States, India, France, Germany, Brazil and Japan, based on conformity with Benford’s Law (BL) from 2020 to 2022. This descriptive quantitative study used secondary data from Johns Hopkins University, applying Nigrini’s statistical tests including first- and second-digit tests, the summation test, Chi-square and mean absolute deviation. Brazil was the only country that did not conform to BL in case data. For deaths, only the United States and Japan showed strict or acceptable conformity, Brazil showed marginally acceptable conformity while France, Germany and India presented deviations. It is concluded that BL is useful as a screening tool, but its results should be interpreted with caution given the influence of epidemic dynamics and methodological limitations. The need for more robust, timely and integrated information systems is reinforced to ensure greater reliability of epidemiological data.Keywords:
Benford's Law; Covid-19; data reliability; epidemiological surveillance; information systems.Conteúdo:
A pandemia da Covid-19, com sua rápida disseminação e elevada letalidade, desencadeou uma crise sanitária e econômica sem precedentes em escala global1. Até maio de 2023, haviam sido registrados mais de 767 milhões de casos e 6,9 milhões de mortes em todo o mundo. Os países com maior número de casos confirmados foram os EUA, Índia, França, Alemanha, Brasil e Japão2. A magnitude desses dados impressiona não apenas pelos impactos humanitários, mas também pelas transformações sociais e econômicas decorrentes3.
Diferente de outros eventos epidêmicos, a Covid-19 foi acompanhada em tempo real, por veículos de imprensa, instituições acadêmicas e órgãos governamentais. A velocidade de produção e disseminação de dados acompanhou o avanço da pandemia, tornando a qualidade dessas informações um elemento crucial para a formulação de políticas públicas baseadas em evidências4. Contudo, esse volume crescente de informações também expôs fragilidades dos sistemas nacionais de informação em saúde. Em vários países, surgiram dúvidas sobre a confiabilidade dos dados oficiais5, especialmente no Brasil, onde se observaram mudanças nos critérios de registro, indisponibilidade de dados e sobrecarga dos sistemas resultando em registros incompletos e atrasados e, por vezes, de baixa qualidade6,4.
Essas limitações revelam barreiras estruturais à coleta e consolidação de dados epidemiológicos e destacam a importância de sistemas interoperáveis, oportunos e confiáveis para a resposta a emergências sanitárias7,8. Apesar disso, são escassos os estudos que avaliam a qualidade dos dados da pandemia com base em métricas estatísticas consolidadas.
A Lei de Bendford (LB), que descreve uma distribuição esperada dos dígitos em grandes conjuntos numéricos, tem sido utilizada internacionalmente para detectar possíveis distorções ou inconsistências em dados de Covid-19. Estudos identificaram inconformidades em diversos países e regiões9,10,11,12,13. No Brasil, análises também apontaram não conformidade com a LB14,15,16,17,4. Tais pesquisas, contudo, enfrentam limitações quanto ao tamanho da amostra, curta duração da análise e inconsistência nos dados utilizados.
Diante disso, este artigo amplia o escopo desses estudos, ao analisar os países com maior número absoluto de casos de Covid-19, ao longo de um período contínuo de três anos. Assim, o objetivo do estudo foi avaliar a confiabilidade dos dados de casos e óbitos por Covid-19 nos países com maior número de registros entre 2020 e 2022, com base na Lei de Benford e testes estatísticos complementares.
MÉTODOS
Trata-se de um estudo descritivo, baseado em dados secundários dos casos confirmados e óbitos por Covid-19, obtidos do painel da Universidade Johns Hopkins, abrangendo o período de janeiro de 2020 e dezembro de 2022. Foram selecionados os seis países com maior número absoluto de casos confirmados: Estados Unidos, Índia, França, Alemanha, Brasil e Japão.
A confiabilidade dos dados foi avaliada por meio da aplicação da Lei de Benford (LB), que estabelece a distribuição esperada dos primeiros dígitos em grandes conjuntos de números, conforme a fórmula em que n [1,9] e P(n) referem-se à probabilidade de ocorrência do primeiro dígito n em um universo de números aleatórios18. Segundo essa lei, o dígito 1 deve ocorrer em aproximadamente 30,1% das observações, seguido dos demais até o dígito 9, com frequência decrescente. A aplicação da LB é utilizada para bases com grande volume de dados, variedade de grandezas e, idealmente com valores compostos por ao menos quatro dígitos19. Os registros diários de casos e óbitos foram organizados por país, e os testes estatísticos seguiram o protocolo proposto Nigrini19 por teste do primeiro dígito, segundo dígito e teste da soma. O teste do primeiro dígito verifica desvios gerais da distribuição esperada. O teste do segundo dígito aprofunda a análise permitindo identificar vieses sutis nos dados. O teste da soma, por sua vez, avalia se os pares de dígitos iniciais (10 a 99) contribuem proporcionalmente para o total da soma da base, sendo esperada uma proporção próxima a 1,1% para cada par. Adicionalmente, aplicaram-se o teste Qui-Quadrado e média dos desvios absolutos (DMA). Adotou-se valor crítico de 15,507 proveniente da tabela estatística da distribuição do qui-quadrado, com 8 graus de liberdade e 5% de significância. O resultados do DMA foram classificados segundo Nigrini19: conformidade estrita (<=0,006), aceitável (0,006-0,012), marginal (0,012-0,015) e não conformidade (>0,015). A análise considerou o primeiro dígito significativo (ignorado o zero à esquerda).
Para Brasil, a análise foi desagregada por ondas epidêmicas: primeira (fevereiro a outubro de 2020), segunda (novembro de 2020 até novembro de 2021) e a terceira (a partir de dezembro de 2021), conforme definições do Ministério da Saúde20 e da FIOCRUZ21.
As análises foram realizadas no software estatístico R (versão 4.1.2), utilizando o pacote estatísticos benford.analysis, desenvolvido por Cinelli22.
RESULTADOS
Os países com maior número de casos confirmados de Covid-19 até dezembro de 2022 foram os EUA, Índia, França, Alemanha, Brasil e Japão. No caso do Brasil, foram analisados 36.331.281 registros de casos confirmados e 693.853 registros de óbitos. A aplicação da Lei de Benford revelou que, nos casos confirmados, o número 1 apareceu como primeiro dígito em 22,7% dos registros diários, valor inferior aos 30,1% esperados pela LB. Já nos registros de óbitos, esse mesmo dígito foi observado em 33,9% dos casos, ou seja, acima do padrão esperado pela LB.
Os testes estatísticos de qualidade de ajuste apresentados na Tabela 1, indicaram discrepâncias entre os dados observados e os valores esperados pela LB. Para os registros de casos no Brasil, o teste de ?2 resultou em 43,804 e o DMA foi de 0,0203, indicando não conformidade com a LB. Para os óbitos, o valor do ?2 foi de 20,909 e o DMA de 0,0141, classificando-se como conformidade marginalmente aceitável segundo critérios estabelecidos por Nigrini 19. Esses resultados diferem do observado nos demais países analisados.
Nos EUA, os dados de casos confirmados apresentaram conformidade aceitável com a LB, e os dados de óbitos apresentaram conformidade estrita, ou seja, o mais próximo da distribuição teórica esperada. A Índia, França e Alemanha apresentaram resultados semelhantes entre si: os casos confirmados mostraram aceitável com a LB, enquanto os dados de óbitos não demonstraram conformidade. Já os dados do Japão evidenciaram conformidade aceitável tanto para os casos quanto para os óbitos, sendo, junto com os EUA, o único país a apresentar esse padrão (Figuras 1 e 2).
Em termos de distribuição dos primeiros dígitos nos óbitos, a Índia apresentou frequência abaixo do valor esperado pela LB, ao passo que a França e a Alemanha apresentaram frequência superior ao padrão teórico, sugerindo diferentes padrões de distorção entre os países. Essas variações podem estar relacionadas a aspectos distintos de notificação, agregação e publicação dos dados nos respectivos sistemas de vigilância.
No caso do Brasil, também foi realizada uma análise por ondas epidêmicas, conforme apresentado na Figura 3. Em todos os períodos analisados, os registros de casos confirmados apresentaram não conformidade com a LB. Durante a primeira e segunda onda, a distribuição dos primeiros dígitos ficou abaixo da frequência teórica da LB, enquanto na terceira onda, os valores ficaram acima do esperado. Em relação aos óbitos, os dados da primeira e segunda onda apresentaram frequências nos primeiros dígitos com maior distorção em relação a LB. Contudo, observou-se distribuição mais semelhante à esperada pela LB, resultando em classificação de conformidade marginal aceitável (Tabela 2).
DISCUSSÃO
O presente estudo avaliou a confiabilidade dos dados de casos e óbitos por Covid-19 nos seis países com maior número absoluto de registros, utilizando a Lei de Benford (LB) como ferramenta estatística para identificar distorções numéricas potencialmente indicativas de falhas na integridade dos dados. Os resultados revelam que apenas o Brasil apresentou não conformidade com a LB nos registros de casos confirmados. No que se refere aos óbitos, somente Estados Unidos e Japão demonstraram conformidade estrita ou aceitável, enquanto o Brasil apresentou conformidade marginalmente aceitável, e os demais países não atenderam aos critérios da distribuição esperada pela LB. Esses achados, porém, precisam ser interpretados à luz das limitações da LB. França e Alemanha apresentaram desvios que podem refletir limitações estatísticas da LB em séries temporais e características naturais da curva epidêmica, sem necessariamente indicar falhas no sistema de vigilância5,10,12.
A aplicação da LB, reconhecida como método estatístico eficaz para detecção de anomalias em grandes conjuntos numéricos, evidenciou padrões consistentes com estudos anteriores conduzidos em diferentes contextos geográficos15,9,4. No caso brasileiro, a ausência de conformidade nos dados de casos pode refletir um conjunto de fatores estruturais, operacionais e estatísticos, como subnotificação decorrente de baixa testagem, limitada detecção de casos leves ou assintomáticos, lacunas na integração dos sistemas de informação, ausência de um sistema de notificação no início da pandemia e variabilidade dos números ao longo da epidemia.
A análise dos óbitos, embora tenha apresentado maior proximidade com os padrões esperados, também evidenciou variações temporais relevantes. A conformidade marginalmente aceitável observada na terceira onda epidêmica no Brasil, pode refletir o aumento abrupto do volume e da dispersão dos dados durante a disseminação da variante Ômicron, uma vez que a LB tende a apresentar melhor desempenho em contextos numéricos caracterizados por alta variabilidade e crescimento acelerado. Dessa forma, parte da aparente melhora pode decorrer de propriedades estatísticas inerentes à dinâmica epidêmica, e não exclusivamente à melhoria dos sistemas de informação ou avanços tecnológicos23.
É relevante destacar que a LB, embora útil para avaliar padrões numéricos, não permite inferir diretamente as causas das distorções identificadas. Desvios podem estar relacionados a fatores epidemiológicos, como curvas de crescimento com platôs e picos, ou a práticas de notificação que variam ao longo do tempo e entre países (VÂLSAN et al., 2024). Nesse sentido, as evidências apontam que sistemas de mais robustez institucional e desenvolvimento econômico tendem a produzir dados mais confiáveis5, o que pode explicar parcialmente os melhores resultados observados em países como Estados Unidos e Japão.
Ainda assim, o fato de França e Alemanha apresentarem não conformidade nos registros de óbitos indica que fatores como o estágio da curva epidêmica, mudanças de testagem, intervenções governamentais ou períodos de estabilização prolongada podem afetar a conformidade com a LB independentemente da qualidade do sistema. Estudos como os de Sambridge & Jackson e Balashov et al. demonstram que a LB tende a ser seguida principalmente em fases de crescimento exponencial, perdendo aderência em períodos de platô ou flutuações decorrentes de intervenções externas.
No caso do Brasil, as falhas de interoperabilidade, a ausência de padronização entre os sistemas municipais e estaduais, e os episódios de apagão de dados, como aquele ocorrido em meio à emergência da variante Ômicron, prejudicaram a continuidade da vigilância e a qualidade da informação6. Soma-se a isso o uso inicial de plataformas não concebidas como Sistemas de Informação em Saúde (SIS), como o REDCap, que apresentava limitações funcionais, ausência de campos obrigatórios para encerramento e dificuldade para extração e análise dos dados levando à criação de sistemas paralelos pelos municípios e estados e à fragmentação da informação20.
Esses entraves comprometem a capacidade analítica do sistema de saúde e fragilizam a formulação de políticas públicas baseadas em evidências. Dados confiáveis são fundamentais para adoção eficiente de recursos, a definição de estratégias de mitigação e manutenção da confiança pública nas ações estatais. Como apontado por Prado24, estima-se que as notificações oficiais no Brasil tenham representado 9,2% (IC95% 8,8% - 9,5%) dos casos reais no início da pandemia, percentual substancialmente inferior ao observado em outros países.
A confiabilidade dos dados é essencial para o planejamento e a implementação de políticas públicas eficazes. Em situações de crise sanitária, como a pandemia de Covid-19, decisões baseadas em dados inconsistentes podem comprometer a resposta governamental, dificultar a alocação de recursos e enfraquecer a confiança da população nas ações de saúde pública.
O presente estudo apontou diferentes questões na qualidade dos dados de Covid-19, desde a verificação da conformidade dos casos e óbitos com a LB, até as lacunas existentes nos registros dos dados e nos sistemas de informação. Sistemas de Informação robustos que sejam adequadamente desenvolvidos antes de futuros surtos, podem fortalecer a capacidade de resposta dos sistemas de saúde e contribuir para uma preparação mais eficaz frente a emergências sanitárias.
Os SIS de alto desempenho e efetivamente alavancados são catalisadores para informar a governança de saúde global coordenada e garantir o compartilhamento de dados transparentes e oportunos25.
Como limitação, ressalta-se que, embora a Lei de Benford seja um instrumento amplamente utilizado na auditoria de dados, seus resultados devem ser interpretados com cautela. Fatores como tamanho da amostra, granularidade temporal dos dados e os testes estatísticos selecionados podem influenciar os resultados. Assim, os achados apresentados devem ser considerados como indicadores preliminares de inconsistência, a serem complementados por investigações qualitativas e análises do funcionamento dos sistemas de informação.
CONCLUSÃO
Os achados sugerem possíveis limitações nos dados brasileiros, mas tais interpretações devem ser consideradas à luz das restrições metodológicas da Lei de Benford e das dinâmicas epidêmicas. Os resultados deste estudo indicam que os dados de casos da COVID-19 no Brasil apresentaram desvios em relação à Lei de Benford, enquanto outros países analisados mostraram maior aderência. No entanto, variações também foram observadas na métrica de óbitos, inclusive em sistemas de saúde considerados robustos, como Alemanha e França, que não alcançaram plena conformidade. Esses achados sugerem que a não conformidade com a Lei de Benford não deve ser interpretada automaticamente como falha no sistema de saúde ou nos processos de notificação, uma vez que a própria metodologia possui limitações, especialmente quando aplicada a séries temporais finitas. A análise aponta possíveis fatores que podem influenciar a integridade dos dados, mas a interpretação deve ser cautelosa, considerando que desvios podem ocorrer por múltiplos motivos, incluindo variações naturais na notificação e características estatísticas dos conjuntos de dados.
Nesse contexto, a Lei de Benford se apresenta como uma ferramenta útil de triagem para detectar possíveis distorções numéricas, mas sua interpretação deve ser complementada, sempre que possível, por indicadores internos de qualidade dos dados, como oportunidade, consistência e completude. A aplicação integrada desses elementos, que dependem de microdados não disponíveis em bases internacionais agregadas, permitiria uma avaliação mais abrangente da confiabilidade das informações. Recomenda-se que estudos futuros combinem a LB com análises de oportunidade e completude quando tais dados estiverem acessíveis, o que não foi possível no presente estudo.
A análise indica padrões que podem refletir limitações na qualidade dos dados epidemiológicos, especialmente no contexto brasileiro e reforça, a necessidade de um aprimoramento estrutural e contínuo dos sistemas de informação, tornando-os mais robustos, oportunos e confiáveis. A existência de um SIS eficiente, por si só, não é suficiente para assegurar a integridade da informação em contextos de emergência sanitária. A produção de dados confiáveis exige um sistema de saúde forte e bem estruturado, com vigilância em saúde fortalecida, recursos humanos suficientes, qualificados e valorizados e financiamento público suficiente e contínuo, que permita o funcionamento coordenado e sustentável desses componentes.
A experiência da pandemia de Covid-19 evidencia que a gestão da informação em saúde deve ser tratada como um eixo estratégico da capacidade de preparação e resposta. É necessário construir um modelo resiliente e sistêmico, que articule infraestrutura tecnológica, competências institucionais e estabilidade política e financeira para enfrentar eventos inesperados com agilidade e equidade. O uso de dados válidos e oportunos é indispensável para orientar intervenções, sustentar decisões de governo e assegurar a confiança pública nas ações de vigilância epidemiológica. Trata-se, portanto, de um imperativo não apenas técnico, mas estrutural e político.
REFERÊNCIAS
1. Moura EC, others. Disponibilidade de dados públicos em tempo oportuno para a gestão: análise das ondas da COVID-19. 2021.
2. Johns Hopkins University. Coronavirus COVID-19 Global Cases by Johns Hopkins CSSE [Internet]. 2023. Available from: https://coronavirus.jhu.edu/data/cumulative-cases
3. Bresser-Pereira LC. Financiamento da Covid-19, inflação e restrição fiscal. Brazilian J Polit Econ. 2020;40(4):604–21.
4. Silva L, Figueiredo Filho D. Using Benford’s law to assess the quality of COVID-19 register data in Brazil. J Public Health (Bangkok) [Internet]. 2021 Apr 12;43(1):107–10. Available from: https://academic.oup.com/jpubhealth/article/43/1/107/5937152
5. Balashov VS, Yan Y, Zhu X. Using the Newcomb–Benford law to study the association between a country’s COVID-19 reporting accuracy and its development. Sci Rep [Internet]. 2021 Nov 25;11(1):22914. Available from: https://www.nature.com/articles/s41598-021-02367-z
6. Villela DAM, Gomes MF da C. O impacto da disponibilidade de dados e informação oportuna para a vigilância epidemiológica. Cad Saude Publica [Internet]. 2022;38(7):e00115122. Available from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2022000700101&tlng=pt
7. Natário I. Algumas considerações sobre a COVID-19 [Internet]. 2021. Available from: https://spestatistica.pt/storage/app/uploads/public/608/6b0/4fb/6086b04fb6d0d924468858.pdf
8. Neri SCC. A qualidade dos dados dos sistemas de informação em saúde aplicados na atenção à saúde materno-infantil [Internet]. UNIVERSIDADE FEDERAL DA BAHIA; 2016. Available from: https://repositorio.ufba.br/bitstream/ri/21636/1/Tese Suzana Costa Carvalho. 2016.pdf
9. Moreau VH. Inconsistencies in countries COVID-19 data revealed by Benford’s law. Model Assist Stat Appl. 2021;16(1):73–9.
10. Farhadi N. Can we rely on COVID-19 data? An assessment of data from over 200 countries worldwide. Sci Prog. 2021;104(2).
11. Kolias P. Applying Benford’s law to COVID-19 data: the case of the European Union. J Public Health (Bangkok).
12. Morillas-Jurado FG, Caballer-Tarazona M, Caballer-Tarazona V. Applying Benford’s Law to Monitor Death Registration Data: A Management Tool for the COVID-19 Pandemic. MATHEMATICS. 2022 Jan;10(1).
13. Campolieti M. Mortes por COVID-19 nos EUA: Lei de Benford e subnotificação. Rev Saude Publica. 2022;44(2):e268--e271.
14. Carmo CRS, Caneppelle FL, Nunes FC. Analysis of COVID-19 contamination and deaths cases in Brazil according to the newcomb-benford law. Rev Bras Biometria. 2021;39(4):522–35.
15. Galvêas D, Barros F, Fuzo CA. A forensic analysis of SARS-CoV-2 cases and COVID-19 mortality misreporting in the Brazilian population. Public Health. 2021;196:114–6.
16. Idrovo AJ, Manrique-Hernández EF, Fernández Niño JA. Report From Bolsonaro’s Brazil: The Consequences of Ignoring Science. Int J Heal Serv. 2021;51(1):31–6.
17. Manrique-Hernández EF, Moreno-Montoya J, Hurtado-Ortiz A, Prieto-Alvarado FE, Idrovo ÁJ. Desempeño del sistema de vigilancia colombiano durante la pandemia de COVID-19: evaluación rápida de los primeros 50 días TT - Performance of the Colombian surveillance system during the COVID-19 pandemic: A rapid evaluation of the first 50 days. Biomédica [Internet]. 2020;40:96–103. Available from: http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-41572020000600096&lang=pt
18. Benford F. The law of anomalous numbers. Proc Am Philos Soc [Internet]. 1938;78:551–72. Available from: https://www.jstor.org/stable/984802
19. Nigrini MJ. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations. John Wiley & Sons; 2020.
20. Ministério da Saúde. Boletim Epidemiológico Especial: Covid-19. 2023.
21. Fundação Oswaldo Cruz. Observatório Covid-19 - Boletim Especial: Balanço de dois anos da pandemia Covid-19 [Internet]. 2022. Available from: https://portal.fiocruz.br/documentos-produzidos-pelo-observatorio-covid-19
22. Cinelli C. benford.analysis: análise Benford para validação de dados e análise forense. 2018.
23. Carvalho CA de, Carvalho VA de, Campos MAG, Oliveira BLCA de, Diniz EM, Santos AM dos, et al. Delay in death reporting affects timely monitoring and modeling of the COVID-19 pandemic. Cad Saude Publica [Internet]. 2021;37(7). Available from: http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0102-311X2021000705018&lang=pt
24. Prado MF do, others. Análise da subnotificação de COVID-19 no Brasil. Rev Bras Ter Intensiva. 2020;32:224–8.
25. Ribas FV, Custódio ACD, Toledo LV, Henriques BD, Sediyama CMN de O, Freitas BAC de. Completude das notificações de síndrome respiratória aguda grave no âmbito nacional e em uma regional de saúde de Minas Gerais, durante a pandemia de COVID-19, 2020. Epidemiol e Serviços Saúde [Internet]. 2022;31(2). Available from: https://doi.org/10.1590/S1679-49742022000200004











