Tipos de variáveis

e-Book: EpyDEMIOLOGIA COM PYTHON

O tipo de variável em Python (ou em qualquer outra linguagem de programação) influencia diretamente os tipos de cálculos estatísticos que podem ser realizados. Cada tipo de dado possui características que determinam quais operações e análises estatísticas podem ser aplicadas. Vamos explorar as relações entre os tipos de variáveis e os cálculos estatísticos possíveis:

Variáveis Numéricas

  • Inteiros (int) e Ponto Flutuante (float) são os dois principais tipos numéricos usados para representar dados quantitativos.

Cálculos estatísticos:

  • Média: A média aritmética é uma das medidas mais comuns de tendência central e pode ser calculada para variáveis numéricas.

  • Mediana: A mediana é o valor que separa a metade superior da inferior dos dados. Pode ser usada tanto para variáveis inteiras quanto de ponto flutuante.

  • Desvio padrão e variância: Medidas de dispersão como o desvio padrão e a variância quantificam o quanto os valores numéricos se espalham em relação à média.

  • Soma, Produto e Diferenças: Operações aritméticas básicas são aplicáveis a variáveis numéricas, como soma de séries ou cálculo de diferenças entre valores.

numeros = [10, 20, 30, 40, 50]
media = sum(numeros) / len(numeros)  # Calcula a média
print(media)
30.0

Limitação: Dados não numéricos, como texto, não podem ser usados diretamente nesses cálculos.

Variáveis Categóricas

  • Strings (str) e Booleanos (bool) são comumente usados para representar dados categóricos, como nomes, rótulos ou classificações.

  • Exemplos: Sexo, profissões, cidades, categorias de produtos.

Cálculos estatísticos:

  • Moda: Para variáveis categóricas, a moda (valor mais frequente) é a medida de tendência central mais comum.

  • Frequência: A contagem de ocorrências de cada categoria é um cálculo típico para variáveis categóricas, sendo essencial para tabelas de contingência e análise de distribuição.

  • Proporção: A proporção de cada categoria em relação ao total também é uma análise comum para variáveis categóricas.

  • Cruzamento de variáveis (tabelas de contingência): Em estatísticas descritivas, é comum cruzar variáveis categóricas para observar a distribuição conjunta, como sexo versus categoria de emprego.

categorias = ['masculino', 'feminino', 'feminino', 'masculino', 'feminino']
moda = max(set(categorias), key=categorias.count)  # Calcula a moda
print(moda)
feminino

Limitação: Cálculos como média ou variância não fazem sentido para variáveis categóricas.

Variáveis Ordinais

  • Tuplas (tuple) ou listas ordenadas podem ser usadas para armazenar variáveis ordinais, que são categóricas com uma ordem natural (por exemplo, níveis de satisfação, tamanhos de roupas).

Cálculos estatísticos:

  • Mediana: Para variáveis ordinais, a mediana pode ser usada, pois há uma ordem natural entre os valores.

  • Frequência e proporção: Como em variáveis categóricas, é possível calcular a frequência e a proporção de cada categoria ordinal.

satisfacao = ['baixa', 'média', 'alta', 'média', 'alta']
freq = {nivel: satisfacao.count(nivel) for nivel in set(satisfacao)}  # Frequência de cada nível
print(freq)
{'média': 2, 'alta': 2, 'baixa': 1}

Limitação: A diferença entre valores não é significativa para variáveis ordinais, então cálculos como média não fazem sentido.

Variáveis de Coleção

  • Listas (list), Dicionários (dict) e Conjuntos (set) são usados para armazenar coleções de dados, mas raramente são diretamente envolvidos em cálculos estatísticos.

  • Esses tipos de variáveis são úteis para organizar e manipular dados antes de realizar cálculos numéricos ou categóricos.

Cálculos estatísticos:

  • Listas: Podem armazenar múltiplos números ou categorias e, a partir delas, é possível realizar operações como média, desvio padrão, contagem de elementos, etc.

  • Dicionários: Úteis para armazenar dados com rótulos, como contagens de frequências ou resultados de análises.

  • Conjuntos: São úteis para eliminar duplicatas e contar a quantidade de valores únicos.

numeros = [1, 2, 3, 4, 5, 5, 6]
numeros_unicos = set(numeros)  # Elimina duplicatas
print(numeros_unicos)
{1, 2, 3, 4, 5, 6}

Resumo da Relação entre Tipos de Variáveis e Cálculos:

Tipo de Variável Exemplos de Dados Cálculos Estatísticos Possíveis
Numérica
  • Idade

  • Altura

  • Peso

  • Média

  • Mediana

  • Desvio Padrão

  • Soma

  • Variância

Categórica
  • Sexo

  • Profissão

  • Cidade

  • Moda

  • Frequência

  • Proporção

  • Tabelas de Contingência (2x2)

Ordinal Níveis de Satisfação
  • Mediana

  • Frequência

  • Proporção

Coleção
  • Listas de Números

  • Conjuntos

Organização e preparação de dados para cálculos posteriores

Conclusão:

Os tipos de variáveis determinam que tipo de cálculo estatístico faz sentido aplicar a elas. Variáveis numéricas permitem cálculos como média e variância, enquanto variáveis categóricas e ordinais são usadas em análises como frequências e proporções. Compreender os tipos de variáveis é essencial para realizar análises estatísticas corretas e significativas.