Parte 8·8.1·10 min de leitura

Por Que a Bioestatística é Diferente

Os dados biológicos têm propriedades que os cursos de estatística padrão não cobrem — alta dimensionalidade, não-normalidade, amostras correlacionadas e o problema de testes múltiplos em escala genômica.

bioestatísticaestatísticatestes múltiplostipos de dados

A estatística ensinada em cursos introdutórios pressupõe um contexto que os dados biológicos frequentemente violam. Tamanhos de amostra pequenos, muitas variáveis, observações não independentes, estrutura hierárquica, distribuições com excesso de zeros e p-valores aplicados na escala de 20.000 genes simultaneamente — essas são as condições normais da bioinformática, não casos extremos.

Entender por que os dados biológicos são diferentes — e quais abordagens essas diferenças requerem — é a base para fazer análises válidas. Este capítulo introduz os principais desafios estatísticos que você encontrará antes de abordá-los um por um.

O Problema de Testes Múltiplos: O Desafio Central

Em uma comparação padrão de dois grupos, você executa um teste e compara o resultado a α = 0,05. Neste limiar, 5% dos resultados verdadeiramente nulos serão chamados de significativos (falsos positivos). Com um teste, isso é aceitável.

Agora considere um experimento de transcriptômica: você mede a expressão de 20.000 genes e testa cada um para expressão diferencial. Sob a hipótese nula (todos os genes sem alteração), você espera 0,05 × 20.000 = 1.000 falsos positivos — independentemente de quão grande seja seu efeito verdadeiro. O limiar padrão p < 0,05 é inútil.

Este é o problema de testes múltiplos, e é generalizado na bioinformática:

  • Estudos de associação genômica ampla (GWAS): ~6 milhões de SNPs testados
  • Expressão diferencial: ~20.000 genes
  • Chamada de picos de ChIP-seq: ~milhares de janelas genômicas
  • Análise de célula única: ~30.000 genes × muitos clusters de células

Duas soluções principais:

Correção de Bonferroni (controle de FWER): divida α pelo número de testes. Para 20.000 testes com α=0,05: limiar = 0,05/20.000 = 2,5×10⁻⁶. Controla a taxa de erro familiar (probabilidade de qualquer falso positivo). Muito conservadora — rejeita muitos verdadeiros positivos quando o poder é limitado. GWAS usa p < 5×10⁻⁸ por convenção (Bonferroni para ~10⁶ testes independentes).

Benjamini-Hochberg (controle de FDR): controla a taxa de falsas descobertas (proporção esperada de descobertas que são falsas) em vez da probabilidade de qualquer erro. Ordena os p-valores, encontra o maior rank k tal que p(k) ≤ kq/m (onde q é o nível de FDR desejado, m é o número de testes), e declara os testes 1 a k como significativos.

FDR em q=0,05 significa que 5% dos seus resultados chamados de significativos são esperados como falsos positivos. Isso é apropriado para análise exploratória onde você quer encontrar sinais reais para acompanhamento, ao custo de alguns falsos positivos.

Por que o FDR importa tanto

Em uma análise de expressão diferencial do DESeq2 com 20.000 genes, aplicar Bonferroni exigiria p < 2,5×10⁻⁶ para ser significativo. Isso pode deixar você com zero achados mesmo quando centenas de genes realmente mudam.

FDR em q=0,05 permite que p-valores de até ~0,001 sejam significativos (dependendo da distribuição), recuperando centenas de verdadeiros positivos. A troca: 5% desses são falsos positivos — mas você conhece a taxa e pode acompanhar os hits mais importantes.

Para o desenvolvimento de biomarcadores clínicos, você pode precisar de controle de FDR mais rigoroso. Para telas exploratórias, 10–20% de FDR é frequentemente aceitável.

Alta Dimensionalidade: Mais Variáveis do Que Observações

A teoria estatística padrão é construída para n >> p (n observações, p variáveis). Muitos conjuntos de dados biológicos têm o oposto: GWAS com 1000 pacientes e 6 milhões de SNPs; RNA-seq de célula única com 5000 células e 30.000 genes.

Problemas em alta dimensão:

  • Sobreajuste: um modelo com mais parâmetros do que observações se ajustará perfeitamente aos dados de treinamento, mas generalizará mal
  • Maldição da dimensionalidade: em alta dimensão, todos os pontos se tornam igualmente distantes uns dos outros — as métricas de distância perdem significado
  • Correlações espúrias: com muitas variáveis, correlações aleatórias aparecem como significativas por acaso

Soluções:

  • Redução de dimensionalidade antes da análise (PCA, UMAP, NMF)
  • Regressão regularizada (Ridge, LASSO, Elastic Net) para modelos preditivos — adiciona um termo de penalidade que encolhe coeficientes, reduzindo a complexidade efetiva do modelo
  • Métodos esparsos que selecionam um subconjunto de características (LASSO força muitos coeficientes para exatamente zero)
  • Validação cruzada para seleção de modelo e estimativa de desempenho

Distribuições Não Normais

Os dados de contagem de RNA-seq não são normalmente distribuídos. Eles são:

  • Dados de contagem (inteiros não negativos)
  • Superdispersos em relação a Poisson (variância >> média), seguindo uma distribuição binomial negativa
  • Com excesso de zeros em RNA-seq de célula única (muitos genes detectados em 0 leituras para uma dada célula)

Aplicar t-testes diretamente a contagens brutas é inválido. O campo usa modelos especializados:

  • DESeq2 e edgeR: ajustam modelos binomiais negativos com encolhimento empírico Bayesiano de estimativas de dispersão
  • MAST e testes baseados em Seurat: para dados de célula única com excesso de zeros
  • Voom (limma): transforma contagens em log-contagens e aplica pesos de precisão, permitindo o framework de modelo linear

Entender o modelo de erro apropriado não é opcional para transcriptômica — suposições distribucionais erradas levam a taxas de falsos positivos infladas.

Não-Independência: Replicatas Biológicas e Efeitos de Lote

Os testes estatísticos assumem que as observações são independentes. Os dados biológicos são frequentemente não independentes:

Amostras pareadas: medições antes/depois do tratamento do mesmo paciente. Usar um teste não pareado descarta essa estrutura e perde poder.

Medidas repetidas: múltiplos pontos de tempo do mesmo sujeito. Precisam de modelos de efeitos mistos ou ANOVA de medidas repetidas.

Efeitos de lote: amostras processadas em laboratórios diferentes, em dias diferentes, ou com lotes de reagentes diferentes se agruparão por lote em vez de biologia. Ferramentas de correção de efeito de lote (ComBat, limma::removeBatchEffect) ou matrizes de design que incluem o lote como covariável são essenciais.

Replicatas técnicas vs. biológicas: sequenciar a mesma biblioteca de RNA duas vezes (replicata técnica) fornece dados altamente correlacionados — não duas observações independentes. Apenas replicatas biológicas (diferentes pacientes, diferentes animais, diferentes poços de células) fornecem observações verdadeiramente independentes. Um estudo com 10 replicatas técnicas e nenhuma replicata biológica tem n=1, independentemente da profundidade de sequenciamento.

Variáveis de Confusão

Um confundidor é uma variável associada tanto à exposição (tratamento, genótipo) quanto ao resultado (expressão gênica, doença), que cria uma associação espúria se não controlada.

Exemplo clássico: estudo caso-controle comparando expressão gênica em indivíduos doentes vs. saudáveis. Se os pacientes com doença são mais velhos em média, as mudanças de expressão gênica relacionadas à idade aparecerão como mudanças específicas da doença. Incluir a idade como covariável no modelo linear controla isso.

Em genômica:

  • Estratificação populacional em GWAS: indivíduos com ancestralidades diferentes têm frequências de alelos diferentes E taxas de doenças diferentes. Um SNP enriquecido em uma população de alto risco aparecerá associado à doença mesmo que não tenha papel biológico. Os componentes principais da variação de SNP de todo o genoma são incluídos como covariáveis para controlar a ancestralidade.
  • Composição de tipo celular em RNA-seq em massa: diferenças na infiltração imune (tumor vs. normal) confundem as comparações de expressão gênica. Métodos de decomposição de tipo celular (CIBERSORT, MuSiC) estimam proporções de tipo celular para correção.

O Problema do Tamanho da Amostra

Experimentos biológicos são caros. Um experimento típico de RNA-seq tem n=3–5 por grupo — dramaticamente subpotenciado para detectar efeitos pequenos após correção de testes múltiplos. A crise de replicação na pesquisa biomédica é parcialmente causada por estudos subpotenciados que encontram (e publicam) resultados que não podem ser replicados.

A análise de poder deve preceder qualquer estudo: dado o tamanho de efeito esperado, o poder desejado (geralmente 80%), a variância da amostra e o número de testes, qual é o tamanho mínimo de amostra necessário? Ferramentas: pacote pwr (R), pwr2pwr Python (para RNA-seq).

Para um experimento típico de RNA-seq (1000 genes com expressão diferencial a FC=1,5, α=5×10⁻⁵, poder=80%): n=5–10 por grupo é frequentemente um mínimo, com n=10+ recomendado para resultados confiáveis.

Variação Biológica vs. Ruído de Medição

Os sistemas biológicos são inerentemente variáveis — os indivíduos diferem, as células dentro de uma amostra diferem, as condições ambientais flutuam. Essa variabilidade biológica carrega sinal (diferenças entre condições) e deve ser distinguida do ruído de medição (erros de sequenciamento, viés de PCR, variação de manuseio).

Separar fontes de variação requer:

  • Replicação adequadamente projetada
  • Decomposição de variância apropriada (modelos mistos, ANOVA)
  • Compreensão do sistema biológico (tamanhos de efeito esperados, CV biológico vs. técnico)

Para RNA-seq de célula única: cada célula é altamente variável, mas a média entre células é mais estável. Análises de agrupamento e trajetória devem levar em conta a natureza discreta e em bursts da transcrição (ruído transcricional) em vez de tratar as diferenças entre células como ruído a ser suprimido.

Resumo: O Que Observar

Antes de executar qualquer análise de dados biológicos, pergunte:

  1. Quantos testes estou executando? → Aplique a correção de testes múltiplos apropriada
  2. Minhas observações são independentes? → Verifique amostras pareadas, efeitos de lote, estrutura hierárquica
  3. O modelo de erro é apropriado? → Dados de contagem? Com excesso de zeros? Proporções? Escolha o teste certo
  4. Quais são os confundidores? → Inclua idade, sexo, ancestralidade, composição de tipo celular conforme apropriado
  5. Meu tamanho de amostra é adequado? → Análise de poder antes do experimento, não depois
  6. Replicatas biológicas vs. técnicas? → Apenas replicatas biológicas fornecem observações independentes

Esses princípios guiarão cada análise nos capítulos que se seguem.