Por Que a Bioestatística é Diferente

A estatística ensinada em cursos introdutórios pressupõe um contexto que os dados biológicos frequentemente violam. Tamanhos de amostra pequenos, muitas variáveis, observações não independentes, estrutura hierárquica, distribuições com excesso de zeros e aplicados na escala de 20.000 simultaneamente — essas são as condições normais da bioinformática, não casos extremos.

Entender por que os dados biológicos são diferentes — e quais abordagens essas diferenças requerem — é a para fazer análises válidas. Este capítulo introduz os principais desafios estatísticos que você encontrará antes de abordá-los um por um.

O Problema de Testes Múltiplos: O Desafio Central

Em uma comparação padrão de dois grupos, você executa um teste e compara o resultado a α = 0,05. Neste limiar, 5% dos resultados verdadeiramente nulos serão chamados de significativos (falsos positivos). Com um teste, isso é aceitável.

Agora considere um experimento de transcriptômica: você mede a expressão de 20.000 e testa cada um para . Sob a hipótese nula (todos os sem alteração), você espera 0,05 × 20.000 = 1.000 falsos positivos — independentemente de quão grande seja seu efeito verdadeiro. O limiar padrão p < 0,05 é inútil.

Este é o problema de testes múltiplos, e é generalizado na bioinformática:

Estudos de associação genômica ampla (GWAS): ~6 milhões de SNPs testados
: ~20.000
Chamada de picos de ChIP-seq: ~milhares de janelas genômicas
Análise de única: ~30.000 × muitos de

Duas soluções principais:

Correção de Bonferroni (controle de FWER): divida α pelo número de testes. Para 20.000 testes com α=0,05: limiar = 0,05/20.000 = 2,5×10⁻⁶. Controla a taxa de erro familiar (probabilidade de qualquer falso positivo). Muito conservadora — rejeita muitos verdadeiros positivos quando o poder é limitado. GWAS usa p < 5×10⁻⁸ por convenção (Bonferroni para ~10⁶ testes independentes).

Benjamini-Hochberg (controle de ): controla a (proporção esperada de descobertas que são falsas) em vez da probabilidade de qualquer erro. Ordena os , encontra o maior rank k tal que p(k) ≤ kq/m (onde q é o nível de desejado, m é o número de testes), e declara os testes 1 a k como significativos.

em q=0,05 significa que 5% dos seus resultados chamados de significativos são esperados como falsos positivos. Isso é apropriado para análise exploratória onde você quer encontrar sinais reais para acompanhamento, ao custo de alguns falsos positivos.

ℹPor que o FDR importa tanto

Em uma análise de do DESeq2 com 20.000 , aplicar Bonferroni exigiria p < 2,5×10⁻⁶ para ser significativo. Isso pode deixar você com zero achados mesmo quando centenas de realmente mudam.

em q=0,05 permite que de até ~0,001 sejam significativos (dependendo da distribuição), recuperando centenas de verdadeiros positivos. A troca: 5% desses são falsos positivos — mas você conhece a taxa e pode acompanhar os hits mais importantes.

Para o desenvolvimento de biomarcadores clínicos, você pode precisar de controle de mais rigoroso. Para telas exploratórias, 10–20% de é frequentemente aceitável.

Alta Dimensionalidade: Mais Variáveis do Que Observações

A teoria estatística padrão é construída para n >> p (n observações, p variáveis). Muitos conjuntos de dados biológicos têm o oposto: GWAS com 1000 pacientes e 6 milhões de SNPs; de única com 5000 e 30.000 .

Problemas em alta dimensão:

Sobreajuste: um modelo com mais parâmetros do que observações se ajustará perfeitamente aos dados de treinamento, mas generalizará mal
Maldição da dimensionalidade: em alta dimensão, todos os pontos se tornam igualmente distantes uns dos outros — as métricas de distância perdem significado
Correlações espúrias: com muitas variáveis, correlações aleatórias aparecem como significativas por acaso

Soluções:

Redução de dimensionalidade antes da análise (, UMAP, NMF)
Regressão regularizada (Ridge, LASSO, Elastic Net) para modelos preditivos — adiciona um termo de penalidade que encolhe coeficientes, reduzindo a complexidade efetiva do modelo
Métodos esparsos que selecionam um subconjunto de características (LASSO força muitos coeficientes para exatamente zero)
Validação cruzada para seleção de modelo e estimativa de desempenho

Distribuições Não Normais

Os dados de contagem de não são normalmente distribuídos. Eles são:

Dados de contagem (inteiros não negativos)
Superdispersos em relação a Poisson (variância >> média), seguindo uma distribuição binomial negativa
Com excesso de zeros em de única (muitos detectados em 0 para uma dada )

Aplicar t-testes diretamente a contagens brutas é inválido. O campo usa modelos especializados:

DESeq2 e edgeR: ajustam modelos binomiais negativos com encolhimento empírico Bayesiano de estimativas de dispersão
MAST e testes baseados em Seurat: para dados de única com excesso de zeros
Voom (limma): transforma contagens em log-contagens e aplica pesos de precisão, permitindo o framework de modelo linear

Entender o modelo de erro apropriado não é opcional para transcriptômica — suposições distribucionais erradas levam a taxas de falsos positivos infladas.

Não-Independência: Replicatas Biológicas e Efeitos de Lote

Os testes estatísticos assumem que as observações são independentes. Os dados biológicos são frequentemente não independentes:

Amostras pareadas: medições antes/depois do tratamento do mesmo paciente. Usar um teste não pareado descarta essa estrutura e perde poder.

Medidas repetidas: múltiplos pontos de tempo do mesmo sujeito. Precisam de modelos de efeitos mistos ou ANOVA de medidas repetidas.

Efeitos de lote: amostras processadas em laboratórios diferentes, em dias diferentes, ou com lotes de reagentes diferentes se agruparão por lote em vez de biologia. Ferramentas de correção de efeito de lote (ComBat, limma::removeBatchEffect) ou matrizes de design que incluem o lote como covariável são essenciais.

Replicatas técnicas vs. biológicas: sequenciar a mesma biblioteca de duas vezes (replicata técnica) fornece dados altamente correlacionados — não duas observações independentes. Apenas replicatas biológicas (diferentes pacientes, diferentes animais, diferentes poços de ) fornecem observações verdadeiramente independentes. Um estudo com 10 replicatas técnicas e nenhuma replicata biológica tem n=1, independentemente da profundidade de .

Variáveis de Confusão

Um confundidor é uma variável associada tanto à exposição (tratamento, ) quanto ao resultado (, doença), que cria uma associação espúria se não controlada.

Exemplo clássico: estudo caso-controle comparando em indivíduos doentes vs. saudáveis. Se os pacientes com doença são mais velhos em média, as mudanças de relacionadas à idade aparecerão como mudanças específicas da doença. Incluir a idade como covariável no modelo linear controla isso.

Em genômica:

Estratificação populacional em GWAS: indivíduos com ancestralidades diferentes têm frequências de diferentes E taxas de doenças diferentes. Um SNP enriquecido em uma população de alto risco aparecerá associado à doença mesmo que não tenha papel biológico. Os componentes principais da variação de SNP de todo o são incluídos como covariáveis para controlar a ancestralidade.
Composição de tipo celular em em massa: diferenças na infiltração imune (tumor vs. normal) confundem as comparações de . Métodos de decomposição de tipo celular (CIBERSORT, MuSiC) estimam proporções de tipo celular para correção.

O Problema do Tamanho da Amostra

Experimentos biológicos são caros. Um experimento típico de tem n=3–5 por grupo — dramaticamente subpotenciado para detectar efeitos pequenos após correção de testes múltiplos. A crise de replicação na pesquisa biomédica é parcialmente causada por estudos subpotenciados que encontram (e publicam) resultados que não podem ser replicados.

A análise de poder deve preceder qualquer estudo: dado o tamanho de efeito esperado, o poder desejado (geralmente 80%), a variância da amostra e o número de testes, qual é o tamanho mínimo de amostra necessário? Ferramentas: pacote pwr (R), pwr2pwr Python (para ).

Para um experimento típico de (1000 com a FC=1,5, α=5×10⁻⁵, poder=80%): n=5–10 por grupo é frequentemente um mínimo, com n=10+ recomendado para resultados confiáveis.

Variação Biológica vs. Ruído de Medição

Os sistemas biológicos são inerentemente variáveis — os indivíduos diferem, as dentro de uma amostra diferem, as condições ambientais flutuam. Essa variabilidade biológica carrega sinal (diferenças entre condições) e deve ser distinguida do ruído de medição (erros de , viés de PCR, variação de manuseio).

Separar fontes de variação requer:

Replicação adequadamente projetada
Decomposição de variância apropriada (modelos mistos, ANOVA)
Compreensão do sistema biológico (tamanhos de efeito esperados, CV biológico vs. técnico)

Para de única: cada é altamente variável, mas a média entre é mais estável. Análises de e trajetória devem levar em conta a natureza discreta e em bursts da (ruído transcricional) em vez de tratar as diferenças entre como ruído a ser suprimido.

Resumo: O Que Observar

Antes de executar qualquer análise de dados biológicos, pergunte:

Quantos testes estou executando? → Aplique a correção de testes múltiplos apropriada
Minhas observações são independentes? → Verifique amostras pareadas, efeitos de lote, estrutura hierárquica
O modelo de erro é apropriado? → Dados de contagem? Com excesso de zeros? Proporções? Escolha o teste certo
Quais são os confundidores? → Inclua idade, sexo, ancestralidade, composição de tipo celular conforme apropriado
Meu tamanho de amostra é adequado? → Análise de poder antes do experimento, não depois
Replicatas biológicas vs. técnicas? → Apenas replicatas biológicas fornecem observações independentes

Esses princípios guiarão cada análise nos capítulos que se seguem.