Aprendizado Profundo em Biologia

O aprendizado profundo transformou a biologia mais profundamente do que quase qualquer outro campo fora da visão computacional e do NLP. O AlphaFold resolveu um problema de 50 anos. Modelos de sequência preveem o efeito de qualquer . Modelos de fundação treinados em bilhões de pares de de estão aprendendo a gramática do . A IA de imagens médicas lê lâminas de patologia com precisão de radiologista.

Este capítulo abrange como as escolhas de arquitetura de aprendizado profundo mapeiam para tipos de dados biológicos, os modelos marcantes que definem o campo e o que a geração atual de modelos de fundação biológicos pode e não pode fazer.

Por Que o Aprendizado Profundo Funciona para Dados de Sequência Biológica

As sequências biológicas — , , — são o domínio natural do aprendizado profundo:

Dependências de longo alcance: um sítio de splice a 10.000 pb de uma região codificante afeta o . Um distal a 500 kb regula a . CNNs e transformers podem capturar essas dependências.
Aprendizado de características hierárquico: → motivos de ligação de TF → módulos regulatórios → programas específicos de tipo celular. As arquiteturas profundas aprendem naturalmente representações hierárquicas.
Escala: bilhões de pares de de sequência de estão disponíveis. Os modelos transformer que requerem dados massivos de treinamento se encaixam naturalmente.
Alfabeto discreto: o tem 4 letras; as têm 20. Os modelos de sequência para linguagem (que também operam em tokens discretos) mapeiam de forma limpa para esses alfabetos.

Redes Neurais Convolucionais em Sequências Genômicas

A primeira onda de aprendizado profundo biológico aplicou CNNs a sequências genômicas de comprimento fixo — a mesma arquitetura que revolucionou a classificação de imagens, adaptada para 1D.

Arquitetura:

One-hot encoded sequence (L × 4, onde L = comprimento da sequência)
↓
Conv1D filters (capturam motivos k-mer, análogos a detectores de borda)
↓
Pooling (agregar em janelas locais)
↓
Camadas convolucionais empilhadas (composição hierárquica de características)
↓
Camadas densas
↓
Predição (ligação de TF, acessibilidade de cromatina, splicing)

DeepBind (2015): previu a especificidade de ligação TF- a partir da sequência; igualou ou superou métodos baseados em PWM e descobriu regras de ligação não lineares.

DeepSEA (2015): previu 919 características de cromatina (DNase, marcas de histona, ligação de TF) a partir de janelas de sequência de 1 kb. Treinado em dados ENCODE. Habilitou a saturação de mutagênese in silico — pontuando cada possível mudança de único para o efeito na atividade regulatória.

Enformer (2021): arquitetura baseada em atenção que prevê diretamente a partir de 200 kb de sequência circundante. Captura interações - distais que modelos de contexto mais curto perdem. Atualmente o melhor modelo para prever atividade regulatória a partir da sequência.

Predição de Splicing

O é governado por motivos de sequência curtos (sítios de splice, pontos de ramificação, ESEs, ESSs) em combinações complexas — um alvo natural para o aprendizado profundo.

SpliceAI (2019): rede residual profunda que prevê o uso de sítios de splice a partir de 10 kb de contexto de sequência. Validado contra conhecidas que alteram o splice; agora usado na interpretação clínica de . Um teste independente: as predições do SpliceAI se correlacionam com o do paciente para de significado incerto próximas a sítios de splice.

O SpliceAI permitiu a predição em todo o das consequências de para todos os SNVs possíveis — o primeiro modelo de aprendizado profundo adotado clinicamente na interpretação de .

Estrutura de Proteínas: AlphaFold

O AlphaFold 2 (2021) é provavelmente o avanço científico mais significativo produzido pelo aprendizado profundo. Ele resolveu o problema de predição de estrutura de — prevendo a estrutura 3D a partir da sequência de — com precisão comparável a métodos experimentais.

A arquitetura: o AlphaFold 2 combina:

Processamento de de múltiplas sequências (MSA): sinais de covariação evolutiva de milhares de sequências homólogas codificam restrições estruturais
Representação de pares: relações em pares entre todos os pares de resíduos
Evoformer: um módulo semelhante a transformer que atualiza iterativamente representações de sequência e par com atenção em ambas as dimensões
Módulo de estrutura: constrói explicitamente coordenadas 3D usando operações de rede neural equivariante (frames para cada resíduo)

A percepção-chave: a informação co-evolutiva é informação estrutural. Se dois resíduos estão em contato em 3D, as em um resíduo são compensadas por no outro ao longo da evolução. O padrão de compensatórias no MSA codifica contatos 3D.

O Banco de Dados AlphaFold agora contém estruturas previstas para >200 milhões de . Na prática:

Procure qualquer UniProt → obtenha uma predição de estrutura em segundos
As pontuações de confiança por resíduo (pLDDT) indicam confiabilidade (> 70 = confiável; < 50 = desordenado ou incerto)
Os mapas PAE (erro previsto) indicam confiança relativa ao domínio — útil para de múltiplos domínios e interfaces -

AlphaFold 3 (2024): estendido para complexos -, -, -molécula pequena. Permite a predição in silico de interações medicamento- e -ácido nucleico.

Limitações: o AlphaFold prevê bem a estrutura de "estado de repouso", mas tem limitações para:

Regiões intrinsecamente desordenadas (o pLDDT baixo indica corretamente incerteza)
Mudanças conformacionais (ajuste induzido por ligação)
Famílias de raras com poucos homólogos no MSA (informação evolutiva escassa)
de novo projetadas (sem histórico evolutivo)

ℹUsando AlphaFold na prática

Ao interpretar estruturas AlphaFold, sempre verifique a pontuação pLDDT por resíduo (colorida na estrutura no visualizador AF-DB). Regiões azuis (pLDDT > 90) têm alta confiança; amarelo/laranja (50–70) são menos confiáveis; vermelho (< 50) deve ser tratado como estruturalmente não caracterizado. As regiões de baixa confiança frequentemente correspondem a regiões desordenadas biologicamente significativas — não a falhas de predição.

Modelos de Linguagem de Proteínas (PLMs)

Os modelos de linguagem de são transformers treinados em grandes coleções de sequências de usando modelagem de linguagem mascarada — a mesma abordagem que o BERT para linguagem natural.

ESM-2 (Meta AI): treinado em 250 milhões de sequências de do UniRef50. As representações (embeddings) capturam propriedades estruturais e funcionais sem treinamento explícito de estrutura.

Aplicações:

Predição de efeito de : a pontuação de modelagem de linguagem evolutiva prevê a patogenicidade de missense. O ESMFold alcança predição de estrutura a partir de uma única sequência sem MSA.
Predição de função de : os embeddings agrupam por função no espaço de embedding; os vizinhos mais próximos no espaço de embedding são frequentemente funcionalmente semelhantes.
Engenharia de : pontuar todas as em uma posição identifica aquelas que provavelmente serão toleradas — guia experimentos de evolução dirigida e design de .

ProtTrans, ESM-1v, EVE: diferentes de PLM; EVE modela epistasia (efeitos combinados de múltiplas ) e prevê patogenicidade de clínicas.

Modelos de Fundação de DNA/RNA

A mesma arquitetura transformer treinada em sequências genômicas aprende a gramática regulatória do .

Nucleotide Transformer (2023): transformer treinado em 2.500 . As representações aprendidas generalizam para tarefas regulatórias subsequentes sem treinamento adicional.

HyenaDNA: modelo baseado em convolução que lida com sequências de até 1 milhão de pb — capturando dependências genômicas de longo alcance muito longas que transformers (com atenção O(n²)) não conseguem escalar.

DNABERT-2: modelo no estilo BERT em sequências genômicas; ajustado para predição de , ligação de TF, acessibilidade de cromatina.

Modelos de linguagem genômica podem prever:

Sítios de ligação de
Acessibilidade de cromatina (picos de ATAC-seq)
Atividade de
Efeito de na atividade regulatória
a partir da sequência

Modelos de linguagem de (SpliceBERT, RNABERT) visam a predição de e estrutura de .

Imagens Médicas: Patologia Computacional

As lâminas de histopatologia contêm informações ricas, mas são grandes (imagens de gigapixels) e requerem interpretação especializada. O aprendizado profundo transformou isso:

CNNs baseadas em patches: dividir imagens de lâminas inteiras em patches (256×256 px); classificar cada patch; agregar predições. Usado para:

Classificação tumor vs. normal
Classificação de subtipo de câncer
Graduação (escore de Gleason para câncer de próstata)

Aprendizado de instância múltipla (MIL): tratar a lâmina como uma "bolsa" de patches; aprender quais patches são informativos para o rótulo em nível de lâmina sem anotações em nível de patch. A abordagem padrão para patologia fracamente supervisionada.

Modelos de fundação para patologia (UNI, CONCH, PLIP): transformers de visão pré-treinados em milhões de imagens de patologia. Ajustados para tarefas específicas com dados rotulados mínimos.

Integração multimodal: combinar (de transcriptômica espacial) com histologia (imagens H&E) permite prever subtipos moleculares diretamente a partir de imagens, ou usar imagens para inferir espacial em escala.

Redes Neurais de Grafo para Biologia Molecular

Moléculas, redes de interação proteica e metabólicas são naturalmente representadas como grafos. As redes neurais de grafo (GNNs) operam diretamente em dados estruturados em grafo.

Predição de propriedade molecular:

Átomos = nós; ligações = arestas
GNN aprende representações em nível de átomo agregando informações de vizinhança
A em nível de grafo prevê propriedades moleculares (solubilidade, toxicidade, afinidade de ligação)
Aplicações: predição de ADMET em descoberta de medicamentos, triagem de toxicidade, predição de resultado de reação

Redes de interação -: GNNs em grafos PPI preveem essencialidade de , alvos de medicamentos e candidatos de doenças.

Modelos de grafo celular: em transcriptômica espacial, cada é um nó com características de expressão; as vizinhas são arestas. GNNs preveem o estado celular a partir do contexto de vizinhança.

Sequência para Função: O Paradigma Central

Muitas tarefas modernas de aprendizado profundo biológico seguem o mesmo padrão:

Sequência → [Modelo de Aprendizado Profundo] → Função

Exemplos:

Sequência de → acessibilidade de cromatina
Sequência de →
Sequência de → estrutura 3D
Sequência de → estabilidade / afinidade de ligação
Sequência de → estrutura secundária
Sequência de → ligação ao

O poder desse paradigma: uma vez que um modelo é treinado, você pode prever o efeito de qualquer mudança de sequência in silico, sem experimentos. Isso permite:

Saturação de mutagênese: pontuar todas as únicas em cada posição
Design inverso: pesquisar o espaço de sequências por sequências com propriedades desejadas
Interpretação de : prever o efeito funcional de qualquer observada

Evolução dirigida in silico: usar o modelo sequência-para-função como função objetivo; otimizar com gradiente descendente ou algoritmos evolutivos para encontrar sequências com atividade prevista máxima. AlphaFold + modelos de linguagem de permitiram o design de novas e que funcionam na validação de bancada.

Considerações de Treinamento para Aprendizado Profundo Biológico

Divisões de Dados para Dados de Sequência

As divisões padrão aleatórias de treinamento/teste são inválidas para — sequências homólogas em treinamento e teste levam ao vazamento de dados.

Para modelos de : dividir por identidade de sequência. As do conjunto de teste devem compartilhar <30% de identidade com qualquer de treinamento. Use ferramentas como MMseqs2 para .

Para modelos genômicos: dividir por . Treinar nos 1–18; validar no chr19; testar no chr20–22 e chrX. Isso garante que não haja sobreposição posicional entre treino e teste.

Divisões baseadas em tempo: para dados clínicos ou bancos de dados de , divida por data de deposição para simular a avaliação prospectiva realista.

Transfer Learning

A maior parte do aprendizado profundo biológico aproveita modelos pré-treinados:

Pré-treinar em massivos não rotulados (auto-supervisionado)
Ajustar em conjuntos de dados rotulados menores para tarefas específicas

Isso é especialmente importante porque os dados biológicos rotulados são escassos (as anotações funcionais requerem experimentos caros) enquanto os são abundantes.

Predição zero-shot: modelos de linguagem de pré-treinados podem prever efeitos de sem nenhum ajuste fino específico da tarefa — puramente a partir da modelagem de linguagem evolutiva.

Quantificação de Incerteza

As aplicações biológicas requerem saber quando o modelo não sabe:

AlphaFold fornece pontuações de confiança pLDDT
Modelos ensemble estimam a incerteza a partir da variância de predição
A predição conformal fornece conjuntos de predição com cobertura garantida

Em aplicações clínicas, a quantificação de incerteza é cada vez mais exigida por frameworks regulatórios.

Limitações e Avaliação Honesta

Qualidade dos dados sobre arquitetura: a maioria dos ganhos de desempenho em DL biológico vem de melhor curadoria de dados, não de novas arquiteturas. Um transformer em dados limpos supera um conjunto de dados mal curado independentemente da arquitetura.

Mudança de distribuição: modelos treinados em linhagens celulares de câncer podem não prever tumores de pacientes. Modelos treinados em um tecido podem não generalizar para outro. O contexto biológico importa enormemente.

Causalidade vs. correlação: um modelo prevendo atividade de a partir da sequência pode aprender que regiões ricas em GC são acessíveis (correlação) em vez de que motivos específicos de TF impulsionam a acessibilidade (causalidade). Experimentos de perturbação são necessários para estabelecer causalidade.

Lacuna de clínica: mesmo modelos preditivos altamente precisos enfrentam barreiras regulatórias, éticas e práticas para implantação clínica. Os dispositivos médicos de IA/ML aprovados pela FDA requerem validação clínica prospectiva — um bar muito mais alto do que um artigo publicado com alto AUC.

★Quando NÃO usar aprendizado profundo para dados biológicos

Se o seu conjunto de dados tem menos de alguns milhares de amostras e as características são bem caracterizadas ( conhecidos, variáveis clínicas), o gradient boosting ou a regressão regularizada quase sempre superará o aprendizado profundo. O aprendizado profundo brilha quando: (1) você tem dados brutos (sequências, imagens) onde as características precisam ser aprendidas, (2) os dados são abundantes (centenas de milhares de exemplos ou mais), e (3) você pode aproveitar representações pré-treinadas por meio de transfer learning.

Referência de Modelos Marcantes

Modelo	Ano	Tarefa	Arquitetura
DeepSEA	2015	Características de cromatina a partir da sequência	CNN
SpliceAI	2019	Predição de sítio de splice	Rede residual profunda
AlphaFold 2	2021	Predição de estrutura de proteínas	Evoformer + módulo de estrutura
Enformer	2021	Expressão gênica a partir da sequência	Transformer (atenção)
ESM-2	2022	Modelo de linguagem de proteínas	Transformer (estilo BERT)
AlphaFold 3	2024	Estrutura de complexo biomolecular	Difusão + transformer
Nucleotide Transformer	2023	Modelo de sequência genômica	Transformer

Esses modelos representam o estado da arte atual e são ativamente usados em pesquisa e cada vez mais em pipelines clínicos.