As análises de bioinformática rotineiramente requerem testes estatísticos, mas os testes usados cobrem uma faixa mais estreita do que um curso completo de estatística. Este capítulo foca nos testes que você encontrará com mais frequência, enfatizando as suposições (o que o teste requer para ser válido) e os contextos biológicos onde cada um se aplica.
Comparações de Dois Grupos
Teste t de Student
O pilar das comparações de dois grupos. Testa se as médias de dois grupos diferem.
Suposições:
- Dados contínuos (escala de intervalo/razão)
- Aproximadamente normalmente distribuídos dentro de cada grupo (ou n > 30 pelo TCL)
- Observações independentes
- Para teste t de duas amostras: variâncias iguais ou desiguais (o teste t de Welch lida com variâncias desiguais — use-o por padrão)
Quando usado na bioinformática:
- Comparando níveis de biomarcadores contínuos entre casos e controles
- Comparando valores de expressão normalizados (log2 CPM, TPM) entre condições — embora ferramentas especializadas (limma) usem modelagem de variância mais sofisticada
- Comparando diversidade alfa (riqueza de espécies) entre amostras de microbioma
Não apropriado para:
- Contagens brutas de RNA-seq (distribuição binomial negativa, não normal)
- Comparando proporções (use teste de proporção ou qui-quadrado)
- Amostras pareadas sem especificar a estrutura pareada
Teste t pareado: quando cada observação no grupo A é correspondida a uma no grupo B (antes/depois, mesmo paciente tratado vs. não tratado). Aumenta dramaticamente o poder removendo a variância entre sujeitos.
Teste U de Mann-Whitney (teste de postos de Wilcoxon)
Alternativa não paramétrica ao teste t. Testa se as distribuições de dois grupos estão deslocadas em relação uma à outra, sem assumir normalidade.
Quando preferir Mann-Whitney ao teste t:
- n pequeno (n < 20) onde a normalidade não pode ser assumida
- Dados ordinais (por exemplo, grau de doença 0–4)
- Presença de outliers que influenciariam fortemente a média
- Distribuições claramente não normais (por exemplo, taxas de rotatividade de proteínas, concentrações de metabólitos)
Troca: menor poder do que o teste t quando os dados são verdadeiramente normalmente distribuídos. Se n for grande e não houver outliers graves, o teste t e Mann-Whitney fornecem p-valores semelhantes.
Comparando Mais de Dois Grupos
ANOVA de Uma Via
Estende o teste t para três ou mais grupos. Testa se alguma média do grupo difere.
Estatística F: razão da variância entre grupos para a variância dentro do grupo. F grande → os grupos diferem mais do que o esperado pelo acaso.
Importante: ANOVA diz que pelo menos um grupo difere, não qual. Testes post-hoc (Tukey HSD, correção de Bonferroni, teste de Dunnett para comparar todos os grupos ao controle) identificam quais pares diferem.
Na bioinformática: comparando níveis de expressão entre múltiplas linhagens celulares, múltiplos pontos de tempo de desenvolvimento ou múltiplas coortes de pacientes.
Teste de Kruskal-Wallis
Alternativa não paramétrica à ANOVA de uma via. Testa se as amostras vêm da mesma distribuição sem suposições de normalidade.
Comum em pesquisa de microbioma (comparando diversidade alfa entre múltiplos grupos de amostras) e estudos clínicos onde a normalidade não pode ser assumida.
Dados Categóricos
Teste Qui-Quadrado
Testa se duas variáveis categóricas são independentes.
Construção: compare as contagens de células observadas em uma tabela de contingência com as contagens esperadas (sob a nula de independência). χ² = Σ (O-E)²/E.
Suposições:
- Observações independentes
- Contagem esperada ≥ 5 em cada célula (use o teste exato de Fisher se isso for violado)
Quando usado:
- Testando se um genótipo de SNP está associado a um resultado de doença (teste simples 2×2 antes dos métodos GWAS)
- Testando se o enriquecimento de termos GO é significativo (enriquecido vs. não enriquecido × conjunto de consulta vs. fundo)
- Testando se duas mutações co-ocorrem ou são mutuamente exclusivas em amostras tumorais
Teste Exato de Fisher
Versão exata do qui-quadrado para tabelas de contingência 2×2 quando as contagens de células esperadas são pequenas (n < ~20, ou qualquer contagem esperada de células < 5).
Usado extensivamente no enriquecimento de conjuntos de genes: dado um conjunto de genes diferencialmente expressos e um conjunto de genes de via, o overlap é maior do que o esperado por acaso?
No conjunto DEG Não no conjunto DEG
Na via a b = tamanho da via
Não na via c d
= tamanho DEG = total de genes
O p-valor exato de Fisher para este teste de super-representação é o p-valor para o teste hipergeométrico unilateral.
Teste Hipergeométrico
O teste estatístico formal para a significância de overlap. Dados m genes totais, K na via, n no conjunto DEG e k no overlap: qual é a probabilidade de k ou mais genes se sobreporem por acaso?
É exatamente isso que ferramentas como topGO, DAVID e Enrichr usam internamente. Entendê-lo permite interpretar suas saídas criticamente — notavelmente, o fundo (o "universo") afeta criticamente o p-valor e é frequentemente escolhido mal (usando todos os genes medidos em vez de todos os genes expressos naquele tipo de célula).
Análise de Sobrevivência
A análise de sobrevivência lida com dados de tempo até o evento — quando um evento de interesse (morte, recaída, progressão) ocorre. É onipresente na oncologia clínica.
Por Que os Testes Padrão Falham para Dados de Sobrevivência
Dois problemas:
- Censura: muitos pacientes não tiveram o evento até o fim do estudo — você sabe que sobreviveram pelo menos até aquele ponto, mas não o tempo exato de sobrevivência. Dados censurados não podem ser excluídos (perda de informação) ou tratados como o evento (infla as contagens de eventos).
- Risco variável no tempo: o risco do evento pode mudar ao longo do tempo (um paciente se recuperando de cirurgia tem alto risco no início, depois menor risco se sobreviver).
Estimador de Kaplan-Meier
Estima a função de sobrevivência S(t) = probabilidade de sobreviver além do tempo t, levando em conta observações censuradas.
Em cada tempo de evento tᵢ: S(tᵢ) = S(tᵢ₋₁) × (1 - dᵢ/nᵢ), onde dᵢ = eventos no tempo tᵢ, nᵢ = em risco logo antes de tᵢ.
A curva de Kaplan-Meier é a visualização padrão para dados de sobrevivência — uma função de degrau que cai em cada tempo de evento. A sobrevivência mediana é lida onde a curva cruza S = 0,5.
Teste de Log-Rank
Testa se duas curvas de sobrevivência diferem significativamente. O teste padrão para comparar braços de tratamento em ensaios clínicos.
Suposições:
- Riscos proporcionais: a razão das taxas de risco entre grupos é constante ao longo do tempo. Se as curvas de sobrevivência se cruzam, os riscos proporcionais são violados e o teste de log-rank é não confiável.
Modelo de Riscos Proporcionais de Cox
Estende a análise de sobrevivência para incluir covariáveis:
h(t|X) = h₀(t) × exp(β₁X₁ + β₂X₂ + ...)
Onde h₀(t) é o risco de linha de base (não especificado — semi-paramétrico) e exp(βᵢ) é a razão de risco para a covariável Xᵢ.
Razão de risco (HR): HR = 2 significa que a taxa instantânea do evento é 2× maior no grupo exposto vs. o de referência.
Usado na genômica clínica: a alta expressão de um gene prevê pior sobrevivência global? Uma mutação específica está associada à sobrevivência livre de progressão reduzida?
Nas análises do TCGA (The Cancer Genome Atlas), a regressão de Cox com expressão gênica como uma variável contínua testa o valor prognóstico em milhares de genes simultaneamente — exigindo correção de FDR.
Correlação
Correlação de Pearson
Mede a correlação linear entre duas variáveis contínuas. Assume normalidade bivariada. Sensível a outliers.
Use para: comparar expressão gênica entre duas condições quando a normalidade é razoável.
Correlação de Rank de Spearman
Correlação baseada em rank não paramétrica. Testa associação monotônica (não apenas linear). Robusta a outliers.
Use para: comparar características ômicas em geral (biomarcador vs. variável clínica), diversidade de microbioma vs. variáveis de metadados, qualquer dado com potenciais outliers.
Armadilha: tanto Pearson quanto Spearman medem correlação em pares, mas correlação não é causalidade e não implica relações regulatórias.
Guia de Seleção de Testes
| Tipo de dado | Comparação | Teste recomendado |
|---|---|---|
| Contínuo, normal | 2 grupos | Teste t de Welch |
| Contínuo, não normal ou ordinal | 2 grupos | Mann-Whitney |
| Contínuo, normal | ≥3 grupos | ANOVA de uma via + post-hoc |
| Contínuo, não normal | ≥3 grupos | Kruskal-Wallis |
| Contínuo, pareado | Antes/depois dos mesmos sujeitos | Teste t pareado ou Wilcoxon |
| Categórico | Contingência 2×2, n > 40 | Qui-quadrado |
| Categórico | Contingência 2×2, n pequeno | Teste exato de Fisher |
| Enriquecimento | Overlap de conjunto de genes | Hipergeométrico (Fisher's) |
| Dados de contagem (RNA-seq) | 2+ condições | DESeq2, edgeR, limma-voom |
| Tempo até o evento | 2 grupos, sobrevivência | Log-rank |
| Tempo até o evento | Múltiplas covariáveis | Riscos proporcionais de Cox |
| Correlação | Linear, normal | Pearson r |
| Correlação | Não linear ou robusto | Spearman ρ |
Tamanhos de Efeito: Não Reporte Apenas p-valores
Um p-valor diz se um efeito existe; não diz se ele importa. Com amostras grandes, diferenças minúsculas e sem sentido se tornam altamente significativas. As medidas de tamanho de efeito quantificam a magnitude da diferença:
- d de Cohen (diferença de média padronizada): d = |μ₁ - μ₂| / σ_agrupado. d = 0,2 pequeno, 0,5 médio, 0,8 grande.
- Log₂ fold change: padrão para expressão diferencial. |log₂FC| > 1 (mudança de 2 vezes) como limiar de significância biológica.
- Razão de risco: HR = 2 significa taxa de evento 2× maior.
- AUC (AUROC): capacidade discriminativa de um biomarcador. AUC = 0,5 é aleatório; AUC > 0,75 é clinicamente útil; AUC > 0,9 é excelente.
Relatar tanto o p-valor quanto o tamanho do efeito, com intervalos de confiança, é cada vez mais exigido por periódicos e é cientificamente necessário para interpretar resultados. Um fold change de 1,1 com p = 10⁻¹⁰ (de um enorme estudo de transcriptômica) pode não ser biologicamente relevante. Um fold change de 3 com p = 0,04 (de um estudo pequeno) pode ser muito importante, mas mal replicado.