ETL

ETL na Preparação de Bases de Dados do Sistema Único de Saúde:
Aplicação no Sistema de Informação de Agravos de Notificação (Sinan)

A análise de dados epidemiológicos no Sistema Único de Saúde (SUS) representa um desafio complexo que envolve a integração de múltiplas fontes de informação heterogêneas, distribuídas geograficamente e com diferentes níveis de qualidade. O processo de Extract, Transform, Load (ETL) emerge como uma metodologia fundamental para transformar dados brutos de vigilância epidemiológica em informações estruturadas e confiáveis para a tomada de decisões em saúde pública. Este capítulo explora a aplicação sistemática dos conceitos de ETL na preparação de bases de dados do Sinan, abordando desde os aspectos técnicos da extração via FTP do DataSUS até as nuances específicas de cada agravo de notificação compulsória.

Fundamentos do ETL em Saúde Pública

Conceituação e Relevância

O processo de Extração, Transformação e Carga (ETL) constitui um conjunto de procedimentos técnicos que permite combinar dados de múltiplas fontes em um repositório central estruturado, denominado data warehouse(Sampaio, s.d.). No contexto da saúde pública brasileira, este processo ganha particular relevância devido à complexidade e heterogeneidade dos sistemas de informação em saúde do SUS (Latuque e Silva, s.d.) .

A área da Descoberta de Conhecimento em Bases de Dados (KDD) utiliza o ETL como processo fundamental para extrair, transformar e carregar dados de fontes heterogêneas em uma estrutura unificada (Aguena, s.d.; Toledo, Correia, e Silva 2025b). Esta abordagem permite que organizações de saúde superem limitações impostas pela fragmentação e duplicação de dados nos sistemas de informação, facilitando análises epidemiológicas mais precisas e oportunas(Xavier, s.d.).

Esquema desde o atendimento médico até seu computador

Desafios Específicos da Saúde Pública

A implementação de ETL em sistemas de saúde pública enfrenta desafios únicos relacionados à qualidade dos dados, completude das notificações e padronização de variáveis (Toledo, Correia, e Silva 2025a; Rautenberg et al., s.d.). Estudos demonstram que a qualidade das informações em sistemas como o Sinan é frequentemente comprometida por problemas de preenchimento, inconsistências entre campos e atrasos na digitação (Rodrigues e Maciel, s.d.).

O Sistema de Informação de Agravos de Notificação (Sinan)

Estrutura e Funcionamento

O Sistema de Informação de Agravos de Notificação (Sinan) representa o principal sistema de vigilância epidemiológica do Brasil, alimentado principalmente pela notificação e investigação de casos de doenças e agravos que constam na lista nacional de doenças de notificação compulsória. Desenvolvido entre 1990 e 1993 e regulamentado em 1998, o sistema tornou obrigatória a alimentação regular da base de dados nacional pelos municípios, estados e Distrito Federal (Gaioti et al. 2024; Silva e Zaidan, s.d.a).

A base nacional de dados do Sinan contém informações relevantes constantemente utilizadas para a avaliação local, municipal e nacional da Vigilância Epidemiológica. Sua utilização plena possibilita a obtenção dos dados indispensáveis ao cálculo dos principais indicadores necessários para o monitoramento das doenças e agravos de notificação compulsória (Silva e Zaidan, s.d.b).

Versões e Modalidades do Sistema

O Sinan opera atualmente em três modalidades principais:

  • Sinan Net: Sistema local instalado em computadores nas unidades de saúde, com dados exportados periodicamente para a secretaria de saúde

  • Sinan Online: Acessado via internet, permitindo registro e consulta online para agravos específicos como Dengue e Chikungunya

  • E-SUS Sinan: Focado na unificação com sistemas da Atenção Primária à Saúde

Estrutura do Repositório FTP

A extração de dados do DataSUS constitui o primeiro componente do processo ETL aplicado à vigilância epidemiológica brasileira (DATASUS 2025; Ministério da Saúde 2015, 2001; Saldanha, Bastos, e Barcellos 2019). O Departamento de Informática do SUS (DATASUS) disponibiliza os microdados em um servidor FTP localizado em ftp://ftp.datasus.gov.br/dissemin/publicos/

Os arquivos são organizados em uma estrutura hierárquica que reflete a complexidade dos sistemas de informação em saúde:

/SINAN/
  ├── DADOS/
  │   ├── FINAIS/
  │   └── PRELIMINARES/
  ├── DOCS/
  └── AUXILIAR/

Formato e Compressão dos Arquivos

Os dados do DATASUS são armazenados em formato DBC (DataSUS Compressed), uma extensão proprietária do formato DBF com compressão desenvolvida especificamente pelo DATASUS. Este formato utiliza o algoritmo de compressão implode da PKware, precedido por um CRC32 para verificação de integridade.

O processo de descompressão requer ferramentas específicas, sendo o pacote read.dbc para R uma solução amplamente adotada na comunidade científica. Desenvolvido por Daniela Petruzalek, este pacote permite a leitura direta de arquivos DBC sem necessidade de conversão prévia (Petruzalek 2016).

Automatização da Extração

A extração automatizada de dados pode ser implementada através de scripts que:

  1. Listam arquivos disponíveis no servidor FTP

  2. Filtram dados por período e localização conforme necessidades analíticas

  3. Baixam arquivos de forma incremental para evitar transferências desnecessárias

  4. Verificam integridade dos arquivos através de checksums

Um exemplo de implementação em R demonstra a extração focada na tabela SIA AM (medicamentos) do Espírito Santo:

url <- "ftp://ftp.datasus.gov.br/dissemin/publicos/"
listaftp <- read.table(text=getURL(ds_url), header = FALSE)

Processo de Transformação: Limpeza e Padronização

Desafios de Qualidade dos Dados

A transformação de dados epidemiológicos enfrenta múltiplos desafios relacionados à qualidade das informações coletadas nas unidades de saúde. Análises da completude das notificações revelam problemas sistemáticos que comprometem a confiabilidade das análises subsequentes.

Principais Problemas Identificados

Os estudos identificam dez categorias principais de problemas de qualidade nos dados do Sinan, com impactos variados na capacidade analítica do sistema:

  1. Atraso na digitação (77% dos casos): Compromete a oportunidade das ações de vigilância

  2. Incompletude de campos (65% dos casos): Reduz a capacidade de caracterização epidemiológica

  3. Problemas de padronização (50% dos casos): Dificulta a comparabilidade entre regiões

  4. Campos ignorados ou em branco (45% dos casos): Limita análises específicas

Principais Problemas de Qualidade de Dados no Sistema Sinan

Estratégias de Limpeza

O processo de limpeza deve abordar sistematicamente cada categoria de problema:

Tratamento de Valores Ausentes: Implementação de algoritmos para identificar padrões de missing data e aplicar técnicas de imputação apropriadas para variáveis epidemiológicas.

Padronização de Códigos: Conversão de códigos específicos do DATASUS (como caracteres especiais em CNS) para formatos numéricos padrão:

dbc$ap_cnspcn <- gsubfn(".", list(
  "{" = "0", "}" = "9", "~" = "8",
  "\177" = "7", "Ç" = "6", "ä" = "5"
), iconv(dbc$ap_cnspcn, "CP861", "UTF-8"))

Deduplicação: Identificação e tratamento de registros duplicados através de algoritmos de linkage probabilístico, considerando variáveis como nome, data de nascimento e endereço (válido apenas para quem trabalha em serviços oficiais de saúde ou tenha acesso permitido pelo Comitê de Ética).

Validação e Consistência

A validação de consistência entre campos relacionados constitui etapa crítica do processo de transformação. Exemplos incluem:

  • Verificação de coerência entre tipo de acidente e tratamento aplicado

  • Validação de datas (sintomas ≤ notificação ≤ investigação)

  • Confirmação de compatibilidade entre classificação final e critério de confirmação

Modelagem Dimensional

A carga de dados transformados em estruturas analíticas requer uma modelagem dimensional apropriada que facilite consultas epidemiológicas complexas. A implementação de um data warehouse para dados de saúde pública segue princípios específicos da área.

Estruturas de Dados Recomendadas

Tabelas Fato: Armazenam medidas quantitativas dos eventos epidemiológicos:

  • Fato_Notificacao: Registros individuais de notificação

  • Fato_Internacao: Dados de hospitalização

  • Fato_Laboratorio: Resultados de exames

Tabelas Dimensão: Contextualizam as medidas:

  • Dim_Tempo: Hierarquias temporais (dia, semana, mês, ano epidemiológico)

  • Dim_Geografia: Estrutura administrativa (município, estado, região)

  • Dim_Agravo: Classificações de doenças e agravos

  • Dim_Unidade_Saude: Características das unidades notificadoras

Implementação Técnica

A carga pode ser implementada utilizando diferentes tecnologias, desde bancos relacionais tradicionais até soluções de big data. Um exemplo de implementação em PostgreSQL:

CREATE TABLE tmp.tf_dispensacao_am (
  AP_AUTORIZ int8 NULL,
  AP_CNSPCN int8 NULL,
  AP_CMP int4 NULL,
  AP_PRIPAL int8 NULL,
  AP_VL_AP decimal(10,2) NULL,
  AP_CIDPRI varchar(4) NULL,
  AP_CIDSEC varchar(4) NULL,
  AP_GESTAO int4 NULL,
  AP_CODUNI int4 NULL
);

Fichas de Notificação e Dicionários de Dados

Importância da Documentação

O conhecimento detalhado das fichas de notificação e dicionários de dados constitui prerrequisito fundamental para a implementação efetiva de processos ETL em vigilância epidemiológica. Estes documentos definem a estrutura conceitual e operacional dos dados coletados.

Estrutura das Fichas de Notificação

A Ficha Individual de Notificação (FIN) contém atributos comuns a todos os agravos, organizados em blocos funcionais:

  • Dados Gerais: Informações sobre o agravo e unidade notificadora

  • Dados do Paciente: Nome, idade, sexo, escolaridade, ocupação

  • Dados de Residência: Endereço completo do paciente

  • Dados Clínicos: Sinais, sintomas e manifestações específicas

Análise do Dicionário de Dados

O dicionário de dados do Sinan Online para Dengue/Chikungunya exemplifica a complexidade e riqueza das informações coletadas. A análise de 23 campos principais revela:

  • 12 campos obrigatórios (52%): Garantem informações mínimas essenciais

  • 8 campos essenciais (35%): Complementam a caracterização epidemiológica

  • 2 campos condicionais (9%): Ativados conforme situações específicas

  • 1 campo opcional (4%): Informação adicional não crítica

Categorização Funcional dos Campos

Os campos podem ser agrupados em categorias funcionais que orientam o processo ETL:

Nuances Específicas por Doença

Particularidades da Dengue e Chikungunya

O processamento de dados de arboviroses como dengue e chikungunya apresenta características específicas que devem ser consideradas no processo ETL. A classificação de gravidade da dengue segue critérios clínicos específicos:

  • Dengue (código 10): Forma clássica sem complicações

  • Dengue com sinais de alarme (código 11): Requer campos específicos de sinais de alarme

  • Dengue grave (código 12): Exige documentação detalhada de sinais de gravidade

Campos Condicionais e Dependências

A estrutura de campos condicionais cria dependências lógicas que devem ser respeitadas durante a transformação:

  • Campo SOROTIPO: Obrigatório apenas quando exames RT-PCR ou isolamento viral são positivos

  • Campos de hospitalização: Habilitados apenas quando HOSPITALIZ = 1 (Sim)

  • Campos de gravidade: Específicos para classificação = 12 (Dengue grave)

Acidentes por Animais Peçonhentos

O processamento de dados de acidentes por animais peçonhentos requer validação específica entre tipo de acidente e tratamento aplicado. A consistência deve verificar a compatibilidade entre:

  • Tipo de animal causador do acidente

  • Soro utilizado no tratamento

  • Tempo entre acidente e atendimento

  • Evolução clínica do paciente

Hepatites Virais

Os dados de hepatites virais apresentam complexidade adicional relacionada aos diferentes tipos virais (A, B, C, D, E) e suas respectivas características epidemiológicas. O processo ETL deve considerar:

  • Marcadores sorológicos específicos para cada tipo

  • Vias de transmissão distintas

  • Populações de risco diferenciadas

  • Protocolos de seguimento específicos

Escalabilidade e Performance

A escalabilidade do processo ETL representa desafio crescente à medida que o volume de dados epidemiológicos aumenta. O DATASUS atualmente mantém cerca de 31 terabytes de informações sobre diferentes aspectos da saúde pública, demandando soluções tecnológicas robustas.

Implementação de Data Lakes

Tecnologias modernas como Apache Spark têm sido aplicadas no processamento de grandes volumes de dados de saúde pública. Estas soluções oferecem capacidade de processamento distribuído necessária para análises em tempo hábil.

Qualidade e Completude

A melhoria contínua da qualidade dos dados requer abordagem sistêmica que inclui:

  • Capacitação de profissionais: Treinamento sobre importância e técnicas de preenchimento correto

  • Validação em tempo real: Implementação de regras de negócio nos sistemas de entrada

  • Feedback regular: Relatórios de qualidade para gestores locais

Interoperabilidade

A integração com outros sistemas do SUS (SIM, SINASC, SIH) amplia as possibilidades analíticas mas exige padronização de identificadores e protocolos de linkage.

Considerações Finais

A aplicação de conceitos ETL na preparação de bases de dados do Sinan representa avanço significativo na capacidade analítica da vigilância epidemiológica brasileira. A sistematização destes processos permite transformar dados brutos de notificação em informações estruturadas que subsidiam a tomada de decisões baseadas em evidências.

O domínio técnico das especificidades de cada etapa – desde a extração via FTP do DataSUS até a carga em estruturas analíticas – constitui competência essencial para epidemiologistas e analistas de dados em saúde pública. A compreensão das nuances de cada agravo de notificação compulsória amplifica a capacidade de extrair insights relevantes para o controle de doenças e agravos.

A evolução contínua dos sistemas de informação em saúde, incluindo a incorporação de tecnologias de inteligência artificial e processamento de grandes volumes de dados, exigirá adaptação permanente dos processos ETL. A preparação de profissionais capacitados nestes métodos representa investimento estratégico para o fortalecimento da vigilância epidemiológica no Brasil.

A implementação bem-sucedida de processos ETL no contexto do Sinan contribui diretamente para a democratização do acesso aos dados de saúde pública, fortalecendo os pilares do SUS e ampliando as possibilidades de pesquisa e inovação em vigilância epidemiológica. A qualidade das análises epidemiológicas resultantes depende fundamentalmente da solidez técnica e conceitual destes processos de preparação de dados.

HealthieR Scripts: Automatizando análises em Epidemiologia e Saúde Pública com R