ETL
ETL na Preparação de Bases de Dados do Sistema Único de Saúde:
Aplicação no Sistema de Informação de Agravos de Notificação (Sinan)
A análise de dados epidemiológicos no Sistema Único de Saúde (SUS) representa um desafio complexo que envolve a integração de múltiplas fontes de informação heterogêneas, distribuídas geograficamente e com diferentes níveis de qualidade. O processo de Extract, Transform, Load (ETL) emerge como uma metodologia fundamental para transformar dados brutos de vigilância epidemiológica em informações estruturadas e confiáveis para a tomada de decisões em saúde pública. Este capítulo explora a aplicação sistemática dos conceitos de ETL na preparação de bases de dados do Sinan, abordando desde os aspectos técnicos da extração via FTP do DataSUS até as nuances específicas de cada agravo de notificação compulsória.
Fundamentos do ETL em Saúde Pública
Conceituação e Relevância
O processo de Extração, Transformação e Carga (ETL) constitui um conjunto de procedimentos técnicos que permite combinar dados de múltiplas fontes em um repositório central estruturado, denominado data warehouse(Sampaio, s.d.). No contexto da saúde pública brasileira, este processo ganha particular relevância devido à complexidade e heterogeneidade dos sistemas de informação em saúde do SUS (Latuque e Silva, s.d.) .
A área da Descoberta de Conhecimento em Bases de Dados (KDD) utiliza o ETL como processo fundamental para extrair, transformar e carregar dados de fontes heterogêneas em uma estrutura unificada (Aguena, s.d.; Toledo, Correia, e Silva 2025b). Esta abordagem permite que organizações de saúde superem limitações impostas pela fragmentação e duplicação de dados nos sistemas de informação, facilitando análises epidemiológicas mais precisas e oportunas(Xavier, s.d.).

Desafios Específicos da Saúde Pública
A implementação de ETL em sistemas de saúde pública enfrenta desafios únicos relacionados à qualidade dos dados, completude das notificações e padronização de variáveis (Toledo, Correia, e Silva 2025a; Rautenberg et al., s.d.). Estudos demonstram que a qualidade das informações em sistemas como o Sinan é frequentemente comprometida por problemas de preenchimento, inconsistências entre campos e atrasos na digitação (Rodrigues e Maciel, s.d.).
O Sistema de Informação de Agravos de Notificação (Sinan)
Estrutura e Funcionamento
O Sistema de Informação de Agravos de Notificação (Sinan) representa o principal sistema de vigilância epidemiológica do Brasil, alimentado principalmente pela notificação e investigação de casos de doenças e agravos que constam na lista nacional de doenças de notificação compulsória. Desenvolvido entre 1990 e 1993 e regulamentado em 1998, o sistema tornou obrigatória a alimentação regular da base de dados nacional pelos municípios, estados e Distrito Federal (Gaioti et al. 2024; Silva e Zaidan, s.d.a).
A base nacional de dados do Sinan contém informações relevantes constantemente utilizadas para a avaliação local, municipal e nacional da Vigilância Epidemiológica. Sua utilização plena possibilita a obtenção dos dados indispensáveis ao cálculo dos principais indicadores necessários para o monitoramento das doenças e agravos de notificação compulsória (Silva e Zaidan, s.d.b).
Versões e Modalidades do Sistema
O Sinan opera atualmente em três modalidades principais:
Sinan Net: Sistema local instalado em computadores nas unidades de saúde, com dados exportados periodicamente para a secretaria de saúde
Sinan Online: Acessado via internet, permitindo registro e consulta online para agravos específicos como Dengue e Chikungunya
E-SUS Sinan: Focado na unificação com sistemas da Atenção Primária à Saúde
Estrutura do Repositório FTP
A extração de dados do DataSUS constitui o primeiro componente do processo ETL aplicado à vigilância epidemiológica brasileira (DATASUS 2025; Ministério da Saúde 2015, 2001; Saldanha, Bastos, e Barcellos 2019). O Departamento de Informática do SUS (DATASUS) disponibiliza os microdados em um servidor FTP localizado em ftp://ftp.datasus.gov.br/dissemin/publicos/
Os arquivos são organizados em uma estrutura hierárquica que reflete a complexidade dos sistemas de informação em saúde:
/SINAN/
├── DADOS/
│ ├── FINAIS/
│ └── PRELIMINARES/
├── DOCS/
└── AUXILIAR/Formato e Compressão dos Arquivos
Os dados do DATASUS são armazenados em formato DBC (DataSUS Compressed), uma extensão proprietária do formato DBF com compressão desenvolvida especificamente pelo DATASUS. Este formato utiliza o algoritmo de compressão implode da PKware, precedido por um CRC32 para verificação de integridade.
O processo de descompressão requer ferramentas específicas, sendo o pacote read.dbc para R uma solução amplamente adotada na comunidade científica. Desenvolvido por Daniela Petruzalek, este pacote permite a leitura direta de arquivos DBC sem necessidade de conversão prévia (Petruzalek 2016).
Automatização da Extração
A extração automatizada de dados pode ser implementada através de scripts que:
Listam arquivos disponíveis no servidor FTP
Filtram dados por período e localização conforme necessidades analíticas
Baixam arquivos de forma incremental para evitar transferências desnecessárias
Verificam integridade dos arquivos através de checksums
Um exemplo de implementação em R demonstra a extração focada na tabela SIA AM (medicamentos) do Espírito Santo:
url <- "ftp://ftp.datasus.gov.br/dissemin/publicos/"
listaftp <- read.table(text=getURL(ds_url), header = FALSE)Processo de Transformação: Limpeza e Padronização
Desafios de Qualidade dos Dados
A transformação de dados epidemiológicos enfrenta múltiplos desafios relacionados à qualidade das informações coletadas nas unidades de saúde. Análises da completude das notificações revelam problemas sistemáticos que comprometem a confiabilidade das análises subsequentes.
Principais Problemas Identificados
Os estudos identificam dez categorias principais de problemas de qualidade nos dados do Sinan, com impactos variados na capacidade analítica do sistema:
Atraso na digitação (77% dos casos): Compromete a oportunidade das ações de vigilância
Incompletude de campos (65% dos casos): Reduz a capacidade de caracterização epidemiológica
Problemas de padronização (50% dos casos): Dificulta a comparabilidade entre regiões
Campos ignorados ou em branco (45% dos casos): Limita análises específicas

Estratégias de Limpeza
O processo de limpeza deve abordar sistematicamente cada categoria de problema:
Tratamento de Valores Ausentes: Implementação de algoritmos para identificar padrões de missing data e aplicar técnicas de imputação apropriadas para variáveis epidemiológicas.
Padronização de Códigos: Conversão de códigos específicos do DATASUS (como caracteres especiais em CNS) para formatos numéricos padrão:
dbc$ap_cnspcn <- gsubfn(".", list(
"{" = "0", "}" = "9", "~" = "8",
"\177" = "7", "Ç" = "6", "ä" = "5"
), iconv(dbc$ap_cnspcn, "CP861", "UTF-8"))Deduplicação: Identificação e tratamento de registros duplicados através de algoritmos de linkage probabilístico, considerando variáveis como nome, data de nascimento e endereço (válido apenas para quem trabalha em serviços oficiais de saúde ou tenha acesso permitido pelo Comitê de Ética).
Validação e Consistência
A validação de consistência entre campos relacionados constitui etapa crítica do processo de transformação. Exemplos incluem:
Verificação de coerência entre tipo de acidente e tratamento aplicado
Validação de datas (sintomas ≤ notificação ≤ investigação)
Confirmação de compatibilidade entre classificação final e critério de confirmação
Modelagem Dimensional
A carga de dados transformados em estruturas analíticas requer uma modelagem dimensional apropriada que facilite consultas epidemiológicas complexas. A implementação de um data warehouse para dados de saúde pública segue princípios específicos da área.
Estruturas de Dados Recomendadas
Tabelas Fato: Armazenam medidas quantitativas dos eventos epidemiológicos:
Fato_Notificacao: Registros individuais de notificação
Fato_Internacao: Dados de hospitalização
Fato_Laboratorio: Resultados de exames
Tabelas Dimensão: Contextualizam as medidas:
Dim_Tempo: Hierarquias temporais (dia, semana, mês, ano epidemiológico)
Dim_Geografia: Estrutura administrativa (município, estado, região)
Dim_Agravo: Classificações de doenças e agravos
Dim_Unidade_Saude: Características das unidades notificadoras
Implementação Técnica
A carga pode ser implementada utilizando diferentes tecnologias, desde bancos relacionais tradicionais até soluções de big data. Um exemplo de implementação em PostgreSQL:
CREATE TABLE tmp.tf_dispensacao_am (
AP_AUTORIZ int8 NULL,
AP_CNSPCN int8 NULL,
AP_CMP int4 NULL,
AP_PRIPAL int8 NULL,
AP_VL_AP decimal(10,2) NULL,
AP_CIDPRI varchar(4) NULL,
AP_CIDSEC varchar(4) NULL,
AP_GESTAO int4 NULL,
AP_CODUNI int4 NULL
);Fichas de Notificação e Dicionários de Dados
Importância da Documentação
O conhecimento detalhado das fichas de notificação e dicionários de dados constitui prerrequisito fundamental para a implementação efetiva de processos ETL em vigilância epidemiológica. Estes documentos definem a estrutura conceitual e operacional dos dados coletados.
Estrutura das Fichas de Notificação
A Ficha Individual de Notificação (FIN) contém atributos comuns a todos os agravos, organizados em blocos funcionais:
Dados Gerais: Informações sobre o agravo e unidade notificadora
Dados do Paciente: Nome, idade, sexo, escolaridade, ocupação
Dados de Residência: Endereço completo do paciente
Dados Clínicos: Sinais, sintomas e manifestações específicas
Análise do Dicionário de Dados
O dicionário de dados do Sinan Online para Dengue/Chikungunya exemplifica a complexidade e riqueza das informações coletadas. A análise de 23 campos principais revela:
12 campos obrigatórios (52%): Garantem informações mínimas essenciais
8 campos essenciais (35%): Complementam a caracterização epidemiológica
2 campos condicionais (9%): Ativados conforme situações específicas
1 campo opcional (4%): Informação adicional não crítica
Categorização Funcional dos Campos
Os campos podem ser agrupados em categorias funcionais que orientam o processo ETL:

Nuances Específicas por Doença
Particularidades da Dengue e Chikungunya
O processamento de dados de arboviroses como dengue e chikungunya apresenta características específicas que devem ser consideradas no processo ETL. A classificação de gravidade da dengue segue critérios clínicos específicos:
Dengue (código 10): Forma clássica sem complicações
Dengue com sinais de alarme (código 11): Requer campos específicos de sinais de alarme
Dengue grave (código 12): Exige documentação detalhada de sinais de gravidade
Campos Condicionais e Dependências
A estrutura de campos condicionais cria dependências lógicas que devem ser respeitadas durante a transformação:
Campo SOROTIPO: Obrigatório apenas quando exames RT-PCR ou isolamento viral são positivos
Campos de hospitalização: Habilitados apenas quando HOSPITALIZ = 1 (Sim)
Campos de gravidade: Específicos para classificação = 12 (Dengue grave)
Acidentes por Animais Peçonhentos
O processamento de dados de acidentes por animais peçonhentos requer validação específica entre tipo de acidente e tratamento aplicado. A consistência deve verificar a compatibilidade entre:
Tipo de animal causador do acidente
Soro utilizado no tratamento
Tempo entre acidente e atendimento
Evolução clínica do paciente
Hepatites Virais
Os dados de hepatites virais apresentam complexidade adicional relacionada aos diferentes tipos virais (A, B, C, D, E) e suas respectivas características epidemiológicas. O processo ETL deve considerar:
Marcadores sorológicos específicos para cada tipo
Vias de transmissão distintas
Populações de risco diferenciadas
Protocolos de seguimento específicos
Escalabilidade e Performance
A escalabilidade do processo ETL representa desafio crescente à medida que o volume de dados epidemiológicos aumenta. O DATASUS atualmente mantém cerca de 31 terabytes de informações sobre diferentes aspectos da saúde pública, demandando soluções tecnológicas robustas.
Implementação de Data Lakes
Tecnologias modernas como Apache Spark têm sido aplicadas no processamento de grandes volumes de dados de saúde pública. Estas soluções oferecem capacidade de processamento distribuído necessária para análises em tempo hábil.
Qualidade e Completude
A melhoria contínua da qualidade dos dados requer abordagem sistêmica que inclui:
Capacitação de profissionais: Treinamento sobre importância e técnicas de preenchimento correto
Validação em tempo real: Implementação de regras de negócio nos sistemas de entrada
Feedback regular: Relatórios de qualidade para gestores locais
Interoperabilidade
A integração com outros sistemas do SUS (SIM, SINASC, SIH) amplia as possibilidades analíticas mas exige padronização de identificadores e protocolos de linkage.
Considerações Finais
A aplicação de conceitos ETL na preparação de bases de dados do Sinan representa avanço significativo na capacidade analítica da vigilância epidemiológica brasileira. A sistematização destes processos permite transformar dados brutos de notificação em informações estruturadas que subsidiam a tomada de decisões baseadas em evidências.
O domínio técnico das especificidades de cada etapa – desde a extração via FTP do DataSUS até a carga em estruturas analíticas – constitui competência essencial para epidemiologistas e analistas de dados em saúde pública. A compreensão das nuances de cada agravo de notificação compulsória amplifica a capacidade de extrair insights relevantes para o controle de doenças e agravos.
A evolução contínua dos sistemas de informação em saúde, incluindo a incorporação de tecnologias de inteligência artificial e processamento de grandes volumes de dados, exigirá adaptação permanente dos processos ETL. A preparação de profissionais capacitados nestes métodos representa investimento estratégico para o fortalecimento da vigilância epidemiológica no Brasil.
A implementação bem-sucedida de processos ETL no contexto do Sinan contribui diretamente para a democratização do acesso aos dados de saúde pública, fortalecendo os pilares do SUS e ampliando as possibilidades de pesquisa e inovação em vigilância epidemiológica. A qualidade das análises epidemiológicas resultantes depende fundamentalmente da solidez técnica e conceitual destes processos de preparação de dados.
HealthieR Scripts: Automatizando análises em Epidemiologia e Saúde Pública com R