Testes Estatísticos Essenciais para Bioinformática

As análises de bioinformática rotineiramente requerem testes estatísticos, mas os testes usados cobrem uma faixa mais estreita do que um curso completo de estatística. Este capítulo foca nos testes que você encontrará com mais frequência, enfatizando as suposições (o que o teste requer para ser válido) e os contextos biológicos onde cada um se aplica.

Comparações de Dois Grupos

Teste t de Student

O pilar das comparações de dois grupos. Testa se as médias de dois grupos diferem.

Suposições:

Dados contínuos (escala de intervalo/razão)
Aproximadamente normalmente distribuídos dentro de cada grupo (ou n > 30 pelo TCL)
Observações independentes
Para teste t de duas amostras: variâncias iguais ou desiguais (o teste t de Welch lida com variâncias desiguais — use-o por padrão)

Quando usado na bioinformática:

Comparando níveis de biomarcadores contínuos entre casos e controles
Comparando valores de expressão normalizados (log2 CPM, TPM) entre condições — embora ferramentas especializadas (limma) usem modelagem de variância mais sofisticada
Comparando diversidade alfa (riqueza de espécies) entre amostras de microbioma

Não apropriado para:

Contagens brutas de RNA-seq (distribuição binomial negativa, não normal)
Comparando proporções (use teste de proporção ou qui-quadrado)
Amostras pareadas sem especificar a estrutura pareada

Teste t pareado: quando cada observação no grupo A é correspondida a uma no grupo B (antes/depois, mesmo paciente tratado vs. não tratado). Aumenta dramaticamente o poder removendo a variância entre sujeitos.

Teste U de Mann-Whitney (teste de postos de Wilcoxon)

Alternativa não paramétrica ao teste t. Testa se as distribuições de dois grupos estão deslocadas em relação uma à outra, sem assumir normalidade.

Quando preferir Mann-Whitney ao teste t:

n pequeno (n < 20) onde a normalidade não pode ser assumida
Dados ordinais (por exemplo, grau de doença 0–4)
Presença de outliers que influenciariam fortemente a média
Distribuições claramente não normais (por exemplo, taxas de rotatividade de proteínas, concentrações de metabólitos)

Troca: menor poder do que o teste t quando os dados são verdadeiramente normalmente distribuídos. Se n for grande e não houver outliers graves, o teste t e Mann-Whitney fornecem p-valores semelhantes.

Comparando Mais de Dois Grupos

ANOVA de Uma Via

Estende o teste t para três ou mais grupos. Testa se alguma média do grupo difere.

Estatística F: razão da variância entre grupos para a variância dentro do grupo. F grande → os grupos diferem mais do que o esperado pelo acaso.

Importante: ANOVA diz que pelo menos um grupo difere, não qual. Testes post-hoc (Tukey HSD, correção de Bonferroni, teste de Dunnett para comparar todos os grupos ao controle) identificam quais pares diferem.

Na bioinformática: comparando níveis de expressão entre múltiplas linhagens celulares, múltiplos pontos de tempo de desenvolvimento ou múltiplas coortes de pacientes.

Teste de Kruskal-Wallis

Alternativa não paramétrica à ANOVA de uma via. Testa se as amostras vêm da mesma distribuição sem suposições de normalidade.

Comum em pesquisa de microbioma (comparando diversidade alfa entre múltiplos grupos de amostras) e estudos clínicos onde a normalidade não pode ser assumida.

Dados Categóricos

Teste Qui-Quadrado

Testa se duas variáveis categóricas são independentes.

Construção: compare as contagens de células observadas em uma tabela de contingência com as contagens esperadas (sob a nula de independência). χ² = Σ (O-E)²/E.

Suposições:

Observações independentes
Contagem esperada ≥ 5 em cada célula (use o teste exato de Fisher se isso for violado)

Quando usado:

Testando se um genótipo de SNP está associado a um resultado de doença (teste simples 2×2 antes dos métodos GWAS)
Testando se o enriquecimento de termos GO é significativo (enriquecido vs. não enriquecido × conjunto de consulta vs. fundo)
Testando se duas mutações co-ocorrem ou são mutuamente exclusivas em amostras tumorais

Teste Exato de Fisher

Versão exata do qui-quadrado para tabelas de contingência 2×2 quando as contagens de células esperadas são pequenas (n < ~20, ou qualquer contagem esperada de células < 5).

Usado extensivamente no enriquecimento de conjuntos de genes: dado um conjunto de genes diferencialmente expressos e um conjunto de genes de via, o overlap é maior do que o esperado por acaso?

         No conjunto DEG   Não no conjunto DEG
Na via         a                 b        = tamanho da via
Não na via     c                 d
         = tamanho DEG           = total de genes

O p-valor exato de Fisher para este teste de super-representação é o p-valor para o teste hipergeométrico unilateral.

Teste Hipergeométrico

O teste estatístico formal para a significância de overlap. Dados m genes totais, K na via, n no conjunto DEG e k no overlap: qual é a probabilidade de k ou mais genes se sobreporem por acaso?

É exatamente isso que ferramentas como topGO, DAVID e Enrichr usam internamente. Entendê-lo permite interpretar suas saídas criticamente — notavelmente, o fundo (o "universo") afeta criticamente o p-valor e é frequentemente escolhido mal (usando todos os genes medidos em vez de todos os genes expressos naquele tipo de célula).

Análise de Sobrevivência

A análise de sobrevivência lida com dados de tempo até o evento — quando um evento de interesse (morte, recaída, progressão) ocorre. É onipresente na oncologia clínica.

Por Que os Testes Padrão Falham para Dados de Sobrevivência

Dois problemas:

Censura: muitos pacientes não tiveram o evento até o fim do estudo — você sabe que sobreviveram pelo menos até aquele ponto, mas não o tempo exato de sobrevivência. Dados censurados não podem ser excluídos (perda de informação) ou tratados como o evento (infla as contagens de eventos).
Risco variável no tempo: o risco do evento pode mudar ao longo do tempo (um paciente se recuperando de cirurgia tem alto risco no início, depois menor risco se sobreviver).

Estimador de Kaplan-Meier

Estima a função de sobrevivência S(t) = probabilidade de sobreviver além do tempo t, levando em conta observações censuradas.

Em cada tempo de evento tᵢ: S(tᵢ) = S(tᵢ₋₁) × (1 - dᵢ/nᵢ), onde dᵢ = eventos no tempo tᵢ, nᵢ = em risco logo antes de tᵢ.

A curva de Kaplan-Meier é a visualização padrão para dados de sobrevivência — uma função de degrau que cai em cada tempo de evento. A sobrevivência mediana é lida onde a curva cruza S = 0,5.

Teste de Log-Rank

Testa se duas curvas de sobrevivência diferem significativamente. O teste padrão para comparar braços de tratamento em ensaios clínicos.

Suposições:

Riscos proporcionais: a razão das taxas de risco entre grupos é constante ao longo do tempo. Se as curvas de sobrevivência se cruzam, os riscos proporcionais são violados e o teste de log-rank é não confiável.

Modelo de Riscos Proporcionais de Cox

Estende a análise de sobrevivência para incluir covariáveis:

h(t|X) = h₀(t) × exp(β₁X₁ + β₂X₂ + ...)

Onde h₀(t) é o risco de linha de base (não especificado — semi-paramétrico) e exp(βᵢ) é a razão de risco para a covariável Xᵢ.

Razão de risco (HR): HR = 2 significa que a taxa instantânea do evento é 2× maior no grupo exposto vs. o de referência.

Usado na genômica clínica: a alta expressão de um gene prevê pior sobrevivência global? Uma mutação específica está associada à sobrevivência livre de progressão reduzida?

Nas análises do TCGA (The Cancer Genome Atlas), a regressão de Cox com expressão gênica como uma variável contínua testa o valor prognóstico em milhares de genes simultaneamente — exigindo correção de FDR.

Correlação

Correlação de Pearson

Mede a correlação linear entre duas variáveis contínuas. Assume normalidade bivariada. Sensível a outliers.

Use para: comparar expressão gênica entre duas condições quando a normalidade é razoável.

Correlação de Rank de Spearman

Correlação baseada em rank não paramétrica. Testa associação monotônica (não apenas linear). Robusta a outliers.

Use para: comparar características ômicas em geral (biomarcador vs. variável clínica), diversidade de microbioma vs. variáveis de metadados, qualquer dado com potenciais outliers.

Armadilha: tanto Pearson quanto Spearman medem correlação em pares, mas correlação não é causalidade e não implica relações regulatórias.

Guia de Seleção de Testes

Tipo de dado	Comparação	Teste recomendado
Contínuo, normal	2 grupos	Teste t de Welch
Contínuo, não normal ou ordinal	2 grupos	Mann-Whitney
Contínuo, normal	≥3 grupos	ANOVA de uma via + post-hoc
Contínuo, não normal	≥3 grupos	Kruskal-Wallis
Contínuo, pareado	Antes/depois dos mesmos sujeitos	Teste t pareado ou Wilcoxon
Categórico	Contingência 2×2, n > 40	Qui-quadrado
Categórico	Contingência 2×2, n pequeno	Teste exato de Fisher
Enriquecimento	Overlap de conjunto de genes	Hipergeométrico (Fisher's)
Dados de contagem (RNA-seq)	2+ condições	DESeq2, edgeR, limma-voom
Tempo até o evento	2 grupos, sobrevivência	Log-rank
Tempo até o evento	Múltiplas covariáveis	Riscos proporcionais de Cox
Correlação	Linear, normal	Pearson r
Correlação	Não linear ou robusto	Spearman ρ

Tamanhos de Efeito: Não Reporte Apenas p-valores

Um p-valor diz se um efeito existe; não diz se ele importa. Com amostras grandes, diferenças minúsculas e sem sentido se tornam altamente significativas. As medidas de tamanho de efeito quantificam a magnitude da diferença:

d de Cohen (diferença de média padronizada): d = |μ₁ - μ₂| / σ_agrupado. d = 0,2 pequeno, 0,5 médio, 0,8 grande.
Log₂ fold change: padrão para expressão diferencial. |log₂FC| > 1 (mudança de 2 vezes) como limiar de significância biológica.
Razão de risco: HR = 2 significa taxa de evento 2× maior.
AUC (AUROC): capacidade discriminativa de um biomarcador. AUC = 0,5 é aleatório; AUC > 0,75 é clinicamente útil; AUC > 0,9 é excelente.

Relatar tanto o p-valor quanto o tamanho do efeito, com intervalos de confiança, é cada vez mais exigido por periódicos e é cientificamente necessário para interpretar resultados. Um fold change de 1,1 com p = 10⁻¹⁰ (de um enorme estudo de transcriptômica) pode não ser biologicamente relevante. Um fold change de 3 com p = 0,04 (de um estudo pequeno) pode ser muito importante, mas mal replicado.