Parte 6·6.3·14 min de leitura

Evolução como Otimização

A evolução é um processo de otimização cego operando sobre variação hereditária — a mesma lógica que o gradiente descendente estocástico, mas rodando por bilhões de anos em uma paisagem de fitness que ainda estamos mapeando.

evoluçãoseleção naturalfilogenéticagenética de populações

A evolução é a explicação de por que cada sistema biológico que examinamos neste livro existe. O ciclo celular tem checkpoints porque células que não os tinham acumulavam mutações e morriam. As proteínas dobram porque as que não dobravam eram degradadas. O sistema imune reconhece patógenos porque organismos sem sistemas imunes não sobreviviam tempo suficiente para se reproduzir.

Cada característica da biologia molecular é a saída de 4 bilhões de anos de otimização — não por um designer, mas pela reprodução diferencial implacável de entidades com variação hereditária. Entender esse processo matematicamente é o domínio da genética de populações; entender seus produtos no espaço de sequências é a filogenética. Ambas são fundamentais para a bioinformática moderna.

A Lógica da Seleção Natural

Três condições são necessárias e suficientes para que a seleção natural ocorra:

  1. Variação hereditária: os indivíduos diferem, e essas diferenças são transmitidas para a prole
  2. Fitness diferencial: algumas variantes se reproduzem mais do que outras em um determinado ambiente
  3. Tamanho populacional suficiente: as variantes devem persistir tempo suficiente para se espalhar

Dadas essas condições, a seleção aumentará a frequência de variantes mais aptas e diminuirá as menos aptas. Não é uma força — é uma consequência lógica da reprodução diferencial.

{ }Evolução como gradiente descendente distribuído

A seleção natural é notavelmente semelhante ao gradiente descendente no aprendizado de máquina, com algumas diferenças-chave:

  • População = lote de soluções candidatas
  • Fitness = função objetivo (mas geralmente multidimensional e não estacionária)
  • Reprodução = etapa de atualização
  • Mutação = ruído adicionado a parâmetros
  • Deriva genética = gradiente estocástico (especialmente em pequenas populações)

O otimizador não tem informação de gradiente — é otimização de ordem zero, aprendendo apenas se os parâmetros atuais funcionam. A seleção não tem previsão — não pode se mover por um vale de fitness para alcançar um pico mais alto. Esta é uma limitação conhecida: a evolução pode ficar presa em ótimos locais, assim como o hill-climbing estocástico.

Mas ela rodou por 4 × 10⁹ "iterações" com paralelismo em ~10¹⁸ organismos individuais a qualquer momento. O orçamento de computação é extraordinário.

Deriva Genética: Passeios Aleatórios no Espaço de Frequências

A seleção natural não é a única força evolutiva. A deriva genética — flutuações aleatórias na frequência de alelos devidas ao tamanho finito da população — pode fixar ou eliminar alelos independentemente do fitness.

A relação-chave: a força da deriva genética em relação à seleção é determinada pelo tamanho efetivo da população (Ne) e pelo coeficiente de seleção (s):

  • Quando |s| >> 1/Ne: a seleção domina (o destino do alelo determinado pelo fitness)
  • Quando |s| << 1/Ne: a deriva domina (o destino do alelo é essencialmente aleatório)

A maioria das mudanças de aminoácidos em proteínas é quase neutra — elas têm efeitos de fitness muito pequenos que são dominados pela deriva, especialmente em populações com Ne pequeno (humanos, grandes mamíferos). Esta é a base da teoria neutra (Kimura, 1968): a maior parte da variação de sequência observada é seletivamente neutra, mantida ou eliminada pela deriva.

Implicação prática: ao comparar genes homólogos entre espécies, a taxa de substituição sinônima (dS) reflete a deriva (neutra), enquanto a taxa de substituição não sinônima (dN) reflete a seleção + deriva. A razão dN/dS (ω):

  • ω < 1: seleção purificadora (a maioria das mudanças de aminoácidos é deletéria; removida pela seleção)
  • ω ≈ 1: evolução neutra
  • ω > 1: seleção positiva (as mudanças de aminoácidos são benéficas; ativamente acumuladas)

A análise de dN/dS é usada para identificar proteínas sob seleção positiva (evoluindo rapidamente sob pressão adaptativa) e para testar se códons específicos em um alinhamento estão sob evolução adaptativa.

Teoria de Coalescência: Olhando para Trás no Tempo

Em vez de perguntar "para onde irá esse alelo?", podemos perguntar "quando todas as cópias desse alelo compartilharam um ancestral comum?" A teoria de coalescência modela a genealogia de cópias gênicas retroativamente no tempo.

Resultado-chave: em uma população de Ne indivíduos diploides, duas cópias gênicas escolhidas aleatoriamente compartilham um ancestral comum, em média, há 2Ne gerações. A implicação mais profunda:

  • Humanos têm Ne ≈ 10.000–20.000 (gargalo da história populacional antiga)
  • A maioria dos pares de cópias gênicas humanas coalesce ~200.000–400.000 anos atrás
  • Isso define a profundidade temporal da variação de sequência humana

Métodos baseados em coalescência fundamentam:

  • Estimativa de tempo de divergência em filogenética
  • Inferência demográfica de dados de genômica de populações (detectando gargalos, expansões e mistura antigos)
  • Raciocínio genealógico em genética forense

Relógios Moleculares: Sequências como Registros de Tempo

Mutações neutras se acumulam em uma taxa aproximadamente constante por geração por sítio — o relógio molecular. Isso permite que as sequências funcionem como relógios moleculares: quanto mais diferentes são duas sequências, mais tempo atrás divergiram.

Aplicações do relógio molecular:

  • Datação de divergências filogenéticas: quando humanos e chimpanzés compartilharam pela última vez um ancestral comum? (5–7 Ma, calibrado pelo relógio molecular a partir da divergência genômica)
  • Datação de surtos virais: métodos filogenéticos Bayesianos (BEAST, TreeTime) usam datas de amostragem e taxas de substituição para datar a origem de surtos virais (origem do SARS-CoV-2 estimada em novembro–dezembro de 2019)
  • Datação de mutações de câncer: com taxas de mutação tumoral, é possível estimar quando a primeira mutação impulsionadora ocorreu (alguns cânceres começam 10–20 anos antes do diagnóstico)

O relógio molecular não é perfeitamente constante — varia com a taxa de mutação (maior em vírus de RNA), tempo de geração e pressão de seleção. Modelos de relógio relaxado contabilizam a variação de taxa entre linhagens.

Filogenética: Lendo a História Evolutiva a partir de Sequências

A filogenética reconstrói as relações evolutivas entre sequências (e os organismos ou genes que as carregam). A saída é uma árvore filogenética — um diagrama de ramificação mostrando relações e tempos de divergência.

Métodos Baseados em Distância

Calcule distâncias de sequência em pares (porcentagem de divergência, corrigida por Jukes-Cantor), depois agrupe usando algoritmos:

  • UPGMA: assume um relógio molecular (todas as linhagens evoluem na mesma taxa)
  • Neighbor-joining (NJ): não assume um relógio; o método rápido padrão para grandes conjuntos de dados

NJ é usado em análises preliminares e filogenética em larga escala onde os métodos de parcimônia e verossimilhança são muito lentos.

Máxima Parcimônia

Seleciona a árvore que minimiza o número total de eventos evolutivos (mutações) necessários para explicar as sequências observadas. Computacionalmente difícil (NP-difícil para árvores grandes). Usado para sequências intimamente relacionadas.

Máxima Verossimilhança (ML)

Seleciona a árvore e os parâmetros do modelo que maximizam a probabilidade de observar os dados de sequência sob um modelo de substituição explícito. O padrão ouro para precisão filogenética. Ferramentas: RAxML, IQ-TREE (ambos implementam heurísticas rápidas de ML; IQ-TREE agora é preferido para a maioria das análises).

Os modelos de substituição descrevem as taxas em que nucleotídeos ou aminoácidos mudam:

  • JC69 (Jukes-Cantor): mais simples; todas as substituições igualmente prováveis
  • GTR+G+I: Reversível no Tempo Geral com taxas distribuídas por Gamma e sítios invariantes; mais flexível e comumente usado

ModelTest ou seleção de modelo integrada do IQ-TREE identifica o modelo de melhor ajuste para um determinado conjunto de dados.

Métodos Bayesianos

BEAST, MrBayes: incorporam distribuições anteriores em parâmetros e amostram da posterior usando MCMC. Podem estimar tempos de divergência, tamanhos populacionais e taxas de migração simultaneamente. Computacionalmente intensivo mas poderoso — o padrão para filogenias datadas e inferência demográfica.

NextStrain e filogenética em tempo real

NextStrain (nextstrain.org) mantém análises filogenéticas em tempo real de influenza, SARS-CoV-2, Ebola, Zika e dezenas de outros patógenos. Ele é atualizado automaticamente à medida que novas sequências são depositadas.

O pipeline (Augur + Auspice) executa MAFFT para alinhamento, IQ-TREE para inferência filogenética e TreeTime para datação de relógio molecular, depois renderiza uma visualização interativa. Durante a COVID-19, esse pipeline foi como a comunidade científica global rastreou a disseminação de variantes e o surgimento de novas linhagens em quase tempo real.

Seleção Positiva no Genoma Humano

Nem toda evolução humana é deriva neutra. Regiões do genoma sob seleção positiva recente mostram assinaturas características:

  • Varreduras seletivas: quando um alelo benéfico sobe rapidamente para fixação, ele carrega variantes circundantes com ele (carona). O resultado: uma região de diversidade reduzida e homozigosidade estendida de haplótipo em torno da variante selecionada. Detectado por estatísticas de homozigosidade estendida de haplótipo (EHH) e iHS (escore de haplótipo integrado).

  • Varreduras específicas de população: variantes em alta frequência em uma população, mas raras em outras, sugerem adaptação local recente. Exemplos clássicos: LCT (persistência da lactase em populações que criam gado leiteiro), HbS (alelo da anemia falciforme em regiões endêmicas de malária), EPAS1 (adaptação à altitude em tibetanos).

  • Seleção balanceadora: algumas variantes são mantidas em frequências intermediárias por seleção que favorece heterozigotos ou alterna ao longo do tempo. Os genes HLA mostram seleção balanceadora extrema — a diversidade é mantida porque um repertório MHC diverso protege contra uma paisagem de patógenos diversa.

Genômica de Populações: Mapeando a História Humana

A genômica de populações moderna usa dados de SNPs de todo o genoma de milhares de indivíduos para inferir:

  • Estrutura populacional: análise de componentes principais (PCA) e ADMIXTURE revelam grupos correspondentes a populações ancestrais e proporções de mistura
  • Padrões de migração: estatísticas F e D-statistics testam fluxo gênico entre populações
  • Gargalos e expansões: trajetórias de tamanho efetivo da população inferidas da distribuição de tempos de coalescência em pares (métodos PSMC, SMC++)
  • Mistura arcaica: sequências de Neandertais e Denisovanos introgressaram em humanos modernos em níveis de 1–4% em populações não africanas — detectável a partir de haplótipos introgressados antigos

O Projeto 1000 Genomas, gnomAD e o UK Biobank fornecem painéis de referência de genômica de populações usados rotineiramente para pesquisa de frequência de variantes, estimativa de ancestralidade em genética clínica e interpretação de GWAS.

Pensamento Evolutivo na Prática de Bioinformática

Os conceitos evolutivos permeiam a bioinformática:

  • Ortólogo vs. parálogo: genes relacionados por especiação (ortólogos) vs. duplicação (parálogos). A identificação de ortólogos é essencial para a genômica comparativa e predição de função gênica.
  • Sintenia: ordem gênica conservada entre cromossomos de espécies diferentes, refletindo organização genômica ancestral
  • Escores de conservação: posições evolutivamente conservadas em alinhamentos de múltiplas sequências são funcionalmente importantes — a base das pontuações GERP, PhastCons e PhyloP usadas na predição de patogenicidade de variantes
  • Reconstrução de sequência ancestral: inferindo a sequência de uma proteína ancestral para estudar a evolução da função

A conservação filogenética é uma das linhas de evidência mais fortes para a patogenicidade de variantes: um aminoácido perfeitamente conservado em 100 espécies de vertebrados é muito provável de ser funcionalmente importante, e uma variante que o interrompe é provavelmente prejudicial.