A evolução é a explicação de por que cada sistema biológico que examinamos neste livro existe. O ciclo celular tem checkpoints porque células que não os tinham acumulavam mutações e morriam. As proteínas dobram porque as que não dobravam eram degradadas. O sistema imune reconhece patógenos porque organismos sem sistemas imunes não sobreviviam tempo suficiente para se reproduzir.
Cada característica da biologia molecular é a saída de 4 bilhões de anos de otimização — não por um designer, mas pela reprodução diferencial implacável de entidades com variação hereditária. Entender esse processo matematicamente é o domínio da genética de populações; entender seus produtos no espaço de sequências é a filogenética. Ambas são fundamentais para a bioinformática moderna.
A Lógica da Seleção Natural
Três condições são necessárias e suficientes para que a seleção natural ocorra:
- Variação hereditária: os indivíduos diferem, e essas diferenças são transmitidas para a prole
- Fitness diferencial: algumas variantes se reproduzem mais do que outras em um determinado ambiente
- Tamanho populacional suficiente: as variantes devem persistir tempo suficiente para se espalhar
Dadas essas condições, a seleção aumentará a frequência de variantes mais aptas e diminuirá as menos aptas. Não é uma força — é uma consequência lógica da reprodução diferencial.
A seleção natural é notavelmente semelhante ao gradiente descendente no aprendizado de máquina, com algumas diferenças-chave:
- População = lote de soluções candidatas
- Fitness = função objetivo (mas geralmente multidimensional e não estacionária)
- Reprodução = etapa de atualização
- Mutação = ruído adicionado a parâmetros
- Deriva genética = gradiente estocástico (especialmente em pequenas populações)
O otimizador não tem informação de gradiente — é otimização de ordem zero, aprendendo apenas se os parâmetros atuais funcionam. A seleção não tem previsão — não pode se mover por um vale de fitness para alcançar um pico mais alto. Esta é uma limitação conhecida: a evolução pode ficar presa em ótimos locais, assim como o hill-climbing estocástico.
Mas ela rodou por 4 × 10⁹ "iterações" com paralelismo em ~10¹⁸ organismos individuais a qualquer momento. O orçamento de computação é extraordinário.
Deriva Genética: Passeios Aleatórios no Espaço de Frequências
A seleção natural não é a única força evolutiva. A deriva genética — flutuações aleatórias na frequência de alelos devidas ao tamanho finito da população — pode fixar ou eliminar alelos independentemente do fitness.
A relação-chave: a força da deriva genética em relação à seleção é determinada pelo tamanho efetivo da população (Ne) e pelo coeficiente de seleção (s):
- Quando
|s| >> 1/Ne: a seleção domina (o destino do alelo determinado pelo fitness) - Quando
|s| << 1/Ne: a deriva domina (o destino do alelo é essencialmente aleatório)
A maioria das mudanças de aminoácidos em proteínas é quase neutra — elas têm efeitos de fitness muito pequenos que são dominados pela deriva, especialmente em populações com Ne pequeno (humanos, grandes mamíferos). Esta é a base da teoria neutra (Kimura, 1968): a maior parte da variação de sequência observada é seletivamente neutra, mantida ou eliminada pela deriva.
Implicação prática: ao comparar genes homólogos entre espécies, a taxa de substituição sinônima (dS) reflete a deriva (neutra), enquanto a taxa de substituição não sinônima (dN) reflete a seleção + deriva. A razão dN/dS (ω):
- ω < 1: seleção purificadora (a maioria das mudanças de aminoácidos é deletéria; removida pela seleção)
- ω ≈ 1: evolução neutra
- ω > 1: seleção positiva (as mudanças de aminoácidos são benéficas; ativamente acumuladas)
A análise de dN/dS é usada para identificar proteínas sob seleção positiva (evoluindo rapidamente sob pressão adaptativa) e para testar se códons específicos em um alinhamento estão sob evolução adaptativa.
Teoria de Coalescência: Olhando para Trás no Tempo
Em vez de perguntar "para onde irá esse alelo?", podemos perguntar "quando todas as cópias desse alelo compartilharam um ancestral comum?" A teoria de coalescência modela a genealogia de cópias gênicas retroativamente no tempo.
Resultado-chave: em uma população de Ne indivíduos diploides, duas cópias gênicas escolhidas aleatoriamente compartilham um ancestral comum, em média, há 2Ne gerações. A implicação mais profunda:
- Humanos têm Ne ≈ 10.000–20.000 (gargalo da história populacional antiga)
- A maioria dos pares de cópias gênicas humanas coalesce ~200.000–400.000 anos atrás
- Isso define a profundidade temporal da variação de sequência humana
Métodos baseados em coalescência fundamentam:
- Estimativa de tempo de divergência em filogenética
- Inferência demográfica de dados de genômica de populações (detectando gargalos, expansões e mistura antigos)
- Raciocínio genealógico em genética forense
Relógios Moleculares: Sequências como Registros de Tempo
Mutações neutras se acumulam em uma taxa aproximadamente constante por geração por sítio — o relógio molecular. Isso permite que as sequências funcionem como relógios moleculares: quanto mais diferentes são duas sequências, mais tempo atrás divergiram.
Aplicações do relógio molecular:
- Datação de divergências filogenéticas: quando humanos e chimpanzés compartilharam pela última vez um ancestral comum? (5–7 Ma, calibrado pelo relógio molecular a partir da divergência genômica)
- Datação de surtos virais: métodos filogenéticos Bayesianos (BEAST, TreeTime) usam datas de amostragem e taxas de substituição para datar a origem de surtos virais (origem do SARS-CoV-2 estimada em novembro–dezembro de 2019)
- Datação de mutações de câncer: com taxas de mutação tumoral, é possível estimar quando a primeira mutação impulsionadora ocorreu (alguns cânceres começam 10–20 anos antes do diagnóstico)
O relógio molecular não é perfeitamente constante — varia com a taxa de mutação (maior em vírus de RNA), tempo de geração e pressão de seleção. Modelos de relógio relaxado contabilizam a variação de taxa entre linhagens.
Filogenética: Lendo a História Evolutiva a partir de Sequências
A filogenética reconstrói as relações evolutivas entre sequências (e os organismos ou genes que as carregam). A saída é uma árvore filogenética — um diagrama de ramificação mostrando relações e tempos de divergência.
Métodos Baseados em Distância
Calcule distâncias de sequência em pares (porcentagem de divergência, corrigida por Jukes-Cantor), depois agrupe usando algoritmos:
- UPGMA: assume um relógio molecular (todas as linhagens evoluem na mesma taxa)
- Neighbor-joining (NJ): não assume um relógio; o método rápido padrão para grandes conjuntos de dados
NJ é usado em análises preliminares e filogenética em larga escala onde os métodos de parcimônia e verossimilhança são muito lentos.
Máxima Parcimônia
Seleciona a árvore que minimiza o número total de eventos evolutivos (mutações) necessários para explicar as sequências observadas. Computacionalmente difícil (NP-difícil para árvores grandes). Usado para sequências intimamente relacionadas.
Máxima Verossimilhança (ML)
Seleciona a árvore e os parâmetros do modelo que maximizam a probabilidade de observar os dados de sequência sob um modelo de substituição explícito. O padrão ouro para precisão filogenética. Ferramentas: RAxML, IQ-TREE (ambos implementam heurísticas rápidas de ML; IQ-TREE agora é preferido para a maioria das análises).
Os modelos de substituição descrevem as taxas em que nucleotídeos ou aminoácidos mudam:
- JC69 (Jukes-Cantor): mais simples; todas as substituições igualmente prováveis
- GTR+G+I: Reversível no Tempo Geral com taxas distribuídas por Gamma e sítios invariantes; mais flexível e comumente usado
ModelTest ou seleção de modelo integrada do IQ-TREE identifica o modelo de melhor ajuste para um determinado conjunto de dados.
Métodos Bayesianos
BEAST, MrBayes: incorporam distribuições anteriores em parâmetros e amostram da posterior usando MCMC. Podem estimar tempos de divergência, tamanhos populacionais e taxas de migração simultaneamente. Computacionalmente intensivo mas poderoso — o padrão para filogenias datadas e inferência demográfica.
NextStrain (nextstrain.org) mantém análises filogenéticas em tempo real de influenza, SARS-CoV-2, Ebola, Zika e dezenas de outros patógenos. Ele é atualizado automaticamente à medida que novas sequências são depositadas.
O pipeline (Augur + Auspice) executa MAFFT para alinhamento, IQ-TREE para inferência filogenética e TreeTime para datação de relógio molecular, depois renderiza uma visualização interativa. Durante a COVID-19, esse pipeline foi como a comunidade científica global rastreou a disseminação de variantes e o surgimento de novas linhagens em quase tempo real.
Seleção Positiva no Genoma Humano
Nem toda evolução humana é deriva neutra. Regiões do genoma sob seleção positiva recente mostram assinaturas características:
-
Varreduras seletivas: quando um alelo benéfico sobe rapidamente para fixação, ele carrega variantes circundantes com ele (carona). O resultado: uma região de diversidade reduzida e homozigosidade estendida de haplótipo em torno da variante selecionada. Detectado por estatísticas de homozigosidade estendida de haplótipo (EHH) e iHS (escore de haplótipo integrado).
-
Varreduras específicas de população: variantes em alta frequência em uma população, mas raras em outras, sugerem adaptação local recente. Exemplos clássicos: LCT (persistência da lactase em populações que criam gado leiteiro), HbS (alelo da anemia falciforme em regiões endêmicas de malária), EPAS1 (adaptação à altitude em tibetanos).
-
Seleção balanceadora: algumas variantes são mantidas em frequências intermediárias por seleção que favorece heterozigotos ou alterna ao longo do tempo. Os genes HLA mostram seleção balanceadora extrema — a diversidade é mantida porque um repertório MHC diverso protege contra uma paisagem de patógenos diversa.
Genômica de Populações: Mapeando a História Humana
A genômica de populações moderna usa dados de SNPs de todo o genoma de milhares de indivíduos para inferir:
- Estrutura populacional: análise de componentes principais (PCA) e ADMIXTURE revelam grupos correspondentes a populações ancestrais e proporções de mistura
- Padrões de migração: estatísticas F e D-statistics testam fluxo gênico entre populações
- Gargalos e expansões: trajetórias de tamanho efetivo da população inferidas da distribuição de tempos de coalescência em pares (métodos PSMC, SMC++)
- Mistura arcaica: sequências de Neandertais e Denisovanos introgressaram em humanos modernos em níveis de 1–4% em populações não africanas — detectável a partir de haplótipos introgressados antigos
O Projeto 1000 Genomas, gnomAD e o UK Biobank fornecem painéis de referência de genômica de populações usados rotineiramente para pesquisa de frequência de variantes, estimativa de ancestralidade em genética clínica e interpretação de GWAS.
Pensamento Evolutivo na Prática de Bioinformática
Os conceitos evolutivos permeiam a bioinformática:
- Ortólogo vs. parálogo: genes relacionados por especiação (ortólogos) vs. duplicação (parálogos). A identificação de ortólogos é essencial para a genômica comparativa e predição de função gênica.
- Sintenia: ordem gênica conservada entre cromossomos de espécies diferentes, refletindo organização genômica ancestral
- Escores de conservação: posições evolutivamente conservadas em alinhamentos de múltiplas sequências são funcionalmente importantes — a base das pontuações GERP, PhastCons e PhyloP usadas na predição de patogenicidade de variantes
- Reconstrução de sequência ancestral: inferindo a sequência de uma proteína ancestral para estudar a evolução da função
A conservação filogenética é uma das linhas de evidência mais fortes para a patogenicidade de variantes: um aminoácido perfeitamente conservado em 100 espécies de vertebrados é muito provável de ser funcionalmente importante, e uma variante que o interrompe é provavelmente prejudicial.