ML Supervisionado em Biologia

O aprendizado de máquina supervisionado — aprender a partir de exemplos rotulados para prever novos — encontrou aplicação extensa em biologia. Prever se um paciente responderá ao tratamento. Classificar se uma genômica é patogênica. Identificar subtipos de câncer a partir da . Prever a estrutura proteica a partir da sequência. Os problemas são diversos, mas o fluxo de trabalho e as armadilhas são notavelmente consistentes.

Este capítulo foca na aplicação de ML supervisionado em contextos biológicos: o que funciona, o que não funciona e as armadilhas específicas que os dados biológicos colocam para os incautos.

A Configuração de Aprendizado Supervisionado em Biologia

Características (X): medições em uma amostra. Em biologia, as características são quase sempre de alta dimensão:

: 20.000 por amostra
Sequência do : milhões de SNPs por indivíduo
Clínico + molecular combinado: centenas a milhares de variáveis
Sequência de : codificados com one-hot

Rótulos (y): o que você está prevendo:

Binário: respondedor/não respondedor, patogênico/benigno, câncer/normal
Multiclasse: subtipo de câncer (LumA/LumB/HER2+/TNBC)
Contínuo (regressão): IC50 de medicamento, estabilidade de , tempo de sobrevivência

A restrição fundamental: os conjuntos de dados biológicos são quase sempre pequenos em relação à dimensionalidade das características. Um estudo típico de genômica clínica pode ter 200 pacientes e 50.000 características — uma proporção desfavorável para a maioria dos algoritmos de ML.

Seleção de Modelo para Dados Biológicos

Regressão Logística/Linear Regularizada

Para dados de alta dimensão e n pequeno, a regressão regularizada é frequentemente o melhor ponto de partida:

LASSO (regularização L1): adiciona uma penalidade proporcional a |β|. Impulsiona muitos coeficientes exatamente a zero — seleção automática de características. Os modelos finais contêm dezenas a centenas de características de um espaço inicial de milhares. Interpretável; cada característica selecionada tem um coeficiente.

Ridge (regularização L2): adiciona uma penalidade proporcional a β². Encolhe todos os coeficientes, mas raramente a zero. Melhor quando muitas características contribuem com pequenas quantidades (traços poligênicos, onde milhares de SNPs cada um contribui ligeiramente).

Elastic Net: combina L1 e L2. Lida melhor com características correlacionadas do que LASSO isolado (LASSO escolhe um arbitrariamente de um grupo correlacionado; Elastic Net tende a agrupá-los).

Esses são apropriados quando:

n << p (mais características do que amostras)
A interpretabilidade é necessária (quais /SNPs impulsionam a predição?)
Limites de decisão lineares são razoáveis

Árvores de Decisão e Random Forests

Random Forest: ensemble de árvores de decisão, cada uma treinada em uma amostra bootstrapped com um subconjunto aleatório de características. As predições são calculadas como médias entre as árvores.

Vantagens para dados biológicos:

Lida com alta dimensionalidade sem regularização explícita
Captura interações de características não lineares
Robusto a características irrelevantes
Fornece estimativas de importância de características
Lida com tipos de dados mistos (categórico + contínuo)

Importância de características: importância baseada em impureza (diminuição média na impureza Gini) ou importância de permutação. A importância de permutação é mais confiável — mede a queda de desempenho real quando uma característica é embaralhada.

Cuidado com características correlacionadas: quando as características são altamente correlacionadas (comum em transcriptômica — módulos de co-regulados), a importância baseada em árvore é dividida entre as características correlacionadas, fazendo qualquer característica individual parecer menos importante. Os valores SHAP abordam isso de forma mais rigorosa.

Gradient Boosting (XGBoost, LightGBM)

O gradient boosting constrói um ensemble de árvores fracas sequencialmente, cada uma corrigindo os erros da anterior. Estado da arte para dados tabulares.

Em biologia, o gradient boosting se destaca para:

Preditores clínicos + moleculares combinados
Conjuntos de dados com tipos de características mistos
Interações não lineares entre variáveis clínicas

A desvantagem: propenso a sobreajuste em pequenos conjuntos de dados biológicos. Requer regularização cuidadosa e parada antecipada.

Máquinas de Vetores de Suporte (SVMs)

SVMs encontram o hiperplano de margem máxima separando as classes. Com o truque de kernel (kernel RBF), eles lidam com limites não lineares em alta dimensão.

Historicamente amplamente usados para classificação de expressão de microarray (a "era SVM" da bioinformática). Agora amplamente suplantados por random forests para dados tabulares, mas ainda usados em tarefas de predição baseadas em sequência (reconhecimento de sítio de splice, classificação de sítio de ligação) onde o design de kernel pode codificar conhecimento biológico.

Redes Neurais e Aprendizado Profundo

Abordado no próximo capítulo. Para dados biológicos tabulares com n pequeno, o aprendizado profundo geralmente não é competitivo com gradient boosting ou regressão regularizada. O aprendizado profundo se torna dominante quando:

Os dados são grandes (milhões de sequências, imagens de lâminas inteiras)
A estrutura dos dados brutos importa (sequências, imagens — onde CNNs ou transformers podem aprender representações)

A Armadilha de Validação: Armadilhas de Dados Biológicos

Esta é a seção mais crítica para praticantes. Os artigos de ML biológico frequentemente relatam desempenho inflado devido a erros de validação.

Tamanho da Amostra e Poder

Um conjunto de treinamento de 50 amostras e um conjunto de teste de 20 amostras fornece intervalos de confiança muito amplos em qualquer estimativa de desempenho. Um AUC de 0,82 em 20 amostras de teste pode ser indistinguível do AUC 0,60 em um estudo maior.

Pergunta-chave antes do desenvolvimento do modelo: você tem amostras suficientes para validação confiável? Diretrizes gerais:

Classificação binária: no mínimo 50–100 eventos (casos) no conjunto de teste para estimativa confiável de AUC
Classes raras: precisam de exemplos positivos suficientes para treinar — um conjunto de dados com 95% negativos e 5% positivos requer ponderação de classe ou sobreamostragem (SMOTE)

Validação Cruzada Corretamente

Validação cruzada k-fold padrão (k=5 ou 10): divida os dados em k folds, treine em k-1 folds, teste no fold restante, rotacione.

Erro crítico: vazamento por seleção de características. Um erro comum em genômica:

Selecionar os 100 mais em todas as amostras
Treinar um classificador usando esses 100 com validação cruzada

Isso está errado. A seleção de características usou todas as amostras, incluindo o fold de teste, então os dados de teste influenciaram quais características foram selecionadas. O desempenho relatado é otimista.

Abordagem correta: todo o pipeline de seleção de características deve estar dentro do loop de validação cruzada:

Em cada fold de VC: selecionar características usando apenas as amostras de treinamento
Aplicar as características selecionadas ao fold de teste
Nunca usar informações do conjunto de teste para qualquer etapa que alimente o modelo

No scikit-learn, isso significa usar Pipeline para encadear seleção de características + modelo — o pipeline é então passado para cross_validate, garantindo separação correta.

Conjunto de Teste Independente vs. Validação Cruzada

Para o desenvolvimento de biomarcadores clínicos, a validação cruzada não é suficiente para reivindicar validade clínica. A validação cruzada estima a generalização dentro da mesma coorte; a validação verdadeiramente independente requer:

Uma coorte separada (hospital diferente, país diferente, período de tempo diferente)
Dados prospectivos coletados após o desenvolvimento do modelo (não retrospectivos)

Muitos biomarcadores publicados com impressionantes AUCs de validação cruzada falham na validação independente — diferentes populações de pacientes, diferentes protocolos de manipulação de amostras, diferentes plataformas de .

★A lacuna de reprodutibilidade em ML biológico

Uma pesquisa de 2020 com 94 estudos publicados de biomarcadores de câncer descobriu que apenas 7% foram validados em uma coorte independente. O campo tem um problema de replicação. Para seu próprio trabalho, incorpore a validação independente no design do estudo desde o início — não como um afterthought quando um revisor pede.

Desequilíbrio de Classe

Os conjuntos de dados biológicos são frequentemente desequilibrados:

Doença rara vs. controles comuns (proporção 1:100)
patogênicas vs. benignas (patogênico = classe minoritária)
Tipos celulares raros em dados de única

Por que a precisão é enganosa: um classificador que sempre prevê "normal" atinge 99% de precisão em um conjunto de dados desequilibrado 1:99 — mas não captura nenhum caso.

Melhores métricas para dados desequilibrados:

AUROC (área sob a curva ROC): independente de limiar; AUC = 0,5 é aleatório, 1,0 é perfeito
AUPRC (área sob a curva precisão-recall): mais informativo quando a classe positiva é rara; a linha de não informativa é a taxa positiva
Sensibilidade/Especificidade em um limiar clínico: frequentemente mais interpretável clinicamente do que o AUC geral
Pontuação F1: média harmônica de precisão e recall

Lidar com desequilíbrio no treinamento:

Pesos de classe: pesar a classe minoritária mais fortemente na função de perda
Sobreamostragem: SMOTE gera exemplos sintéticos da minoria por interpolação
Subamostragem: remover aleatoriamente exemplos da classe majoritária

Sobreajuste em Pequenos Conjuntos de Dados Biológicos

Com 100 amostras e 20.000 características, um modelo pode memorizar ruído. Sinais de sobreajuste:

Grande lacuna entre o desempenho de treinamento e o desempenho de VC
Características selecionadas pelo modelo são biologicamente implausíveis ( aleatórios, não conhecidas)
O desempenho degrada na validação externa

Defesas:

Forte regularização (λ alto em LASSO/Ridge)
Filtragem de características (filtragem de variância, seleção HVG) para reduzir a dimensionalidade antes da modelagem
Modelos simples (menos parâmetros) — uma regressão logística LASSO frequentemente supera uma rede neural em dados n=100
Validação cruzada aninhada para ajuste de hiperparâmetros (loop externo para estimativa de desempenho, loop interno para seleção de hiperparâmetros)

Importância de Características e Interpretabilidade

O ML biológico exige interpretabilidade além da maioria dos domínios — um modelo de caixa preta sem explicação biológica não será publicado ou adotado clinicamente.

SHAP (SHapley Additive exPlanations): decompõe cada predição em contribuições aditivas de cada característica, fundamentado na teoria dos jogos. Para cada amostra, os valores SHAP mostram quanto cada característica empurrou a predição acima ou abaixo da linha de .

O SHAP é agora padrão para modelos complexos (gradient boosting, random forests) em bioinformática. Gráficos beeswarm mostram a importância global das características e a direção do efeito simultaneamente.

Interpretação de coeficientes (LASSO): para modelos lineares, os coeficientes fornecem diretamente os efeitos das características. Um modelo LASSO com 50 selecionados e seus coeficientes é biologicamente interpretável e pode ser verificado contra a biologia conhecida.

Análise de enriquecimento em características principais: pegue os 100 principais classificados por SHAP de um classificador de subtipo de câncer; execute o enriquecimento de . As características impulsionadoras correspondem à biologia do câncer conhecida? Esta é uma verificação de sanidade padrão e frequentemente rende insights biológicos.

Aplicações Específicas em Biologia

Predição de Desfecho Clínico

Prevê desfechos do paciente (resposta, sobrevivência, toxicidade) a partir de características moleculares + clínicas:

Dados de treinamento: coortes retrospectivas com desfechos conhecidos
Características: variáveis clínicas + genômicas (status de , expressão, CNV) + patologia
Saída: probabilidade de resposta ou pontuação de risco
Validação: idealmente ensaio clínico prospectivo

Exemplo: Oncotype DX (um ensaio de expressão de 21 ) prevê o benefício da quimioterapia no câncer de mama. O algoritmo (desenvolvido em dados retrospectivos, validado prospectivamente no ensaio TAILORx) é agora padrão de cuidado.

Predição de Efeito de Variante

Prevê se uma (especialmente SNV missense) é patogênica:

Características: conservação evolutiva, contexto de estrutura proteica, propriedades bioquímicas da mudança de , frequência populacional
Rótulos: patogênicas/benignas conhecidas do ClinVar
Ferramentas: CADD, PolyPhen-2, SIFT, REVEL, AlphaMissense

O problema de vazamento treinamento-teste: os preditores de patogenicidade treinados no ClinVar têm um risco específico — as no ClinVar foram classificadas parcialmente com nas mesmas propriedades de sequência que o modelo usa. O benchmarking requer exclusão cuidadosa de presentes durante o treinamento.

Predição de Resposta a Medicamentos

Prevê IC50 ou AUC a partir de características de linhagem celular/paciente:

Conjuntos de dados GDSC/CCLE: ~1000 linhagens celulares de câncer com perfis genômicos e resposta a medicamentos para centenas de medicamentos
Características: , , CNV
Desafio: os modelos de linhagem celular nem sempre se traduzem para tumores de pacientes

Transcriptômica Espacial

Aplicação mais recente: cada ponto em um tecido tem tanto uma localização quanto . O ML espacial prevê a composição do tipo celular, identifica padrões de expressão espacial e conecta histologia ao estado molecular.

Benchmarking de Desempenho de Modelos

Antes de reivindicar que um novo modelo é estado da arte, faça benchmarking rigoroso:

Linhas de :

Regressão logística com regularização L2 (forte linha de para dados de alta dimensão)
Random forest com parâmetros padrão
Métodos publicados existentes para a mesma tarefa

Protocolo de avaliação:

Fixar todo o pré-processamento e engenharia de características antes da seleção do modelo
Usar validação cruzada aninhada para ajuste de hiperparâmetros
Relatar intervalos de confiança (bootstrap ou variância de VC)
Testar em dados verdadeiramente retidos, não apenas VC

Comparações múltiplas: testar 20 modelos e relatar o melhor se sobreajusta ao conjunto de validação. Use um conjunto de teste final retido ou corrija para seleção de modelo.

ℹA pergunta certa para ML biológico

O objetivo geralmente não é construir o único modelo melhor, mas identificar quais características são biologicamente significativas. Um LASSO que seleciona 20 e atinge AUC 0,78 é frequentemente mais valioso do que uma rede neural atingindo AUC 0,82 se os 20 implicam uma específica que pode ser validada experimentalmente e potencialmente visada terapeuticamente.

Ferramentas e Frameworks

Tarefa	Ferramentas
ML geral	scikit-learn, XGBoost, LightGBM
Aprendizado profundo	PyTorch, TensorFlow/Keras
Interpretabilidade	SHAP, eli5, lime
Modelos de sobrevivência	lifelines, scikit-survival
Específico para expressão	limma, DESeq2, glmnet (R)
ML de variante genômica	CADD web tool, AlphaMissense, EVE
ML clínico + relatórios	mlr3 (R), scikit-learn Pipelines

A API Pipeline do scikit-learn merece menção especial: ela encadeia pré-processamento → seleção de características → modelo em um único objeto que se integra de forma limpa com a validação cruzada, prevenindo vazamento de dados e tornando a serialização do modelo mais limpa.