Evolução como Otimização

A evolução é a explicação de por que cada sistema biológico que examinamos neste livro existe. O ciclo celular tem checkpoints porque que não os tinham acumulavam e morriam. As dobram porque as que não dobravam eram degradadas. O sistema imune reconhece patógenos porque organismos sem sistemas imunes não sobreviviam tempo suficiente para se reproduzir.

Cada característica da biologia molecular é a saída de 4 bilhões de anos de otimização — não por um designer, mas pela reprodução diferencial implacável de entidades com variação hereditária. Entender esse processo matematicamente é o domínio da genética de populações; entender seus produtos no espaço de sequências é a filogenética. Ambas são fundamentais para a bioinformática moderna.

A Lógica da Seleção Natural

Três condições são necessárias e suficientes para que a seleção natural ocorra:

Variação hereditária: os indivíduos diferem, e essas diferenças são transmitidas para a prole
Fitness diferencial: algumas se reproduzem mais do que outras em um determinado ambiente
Tamanho populacional suficiente: as devem persistir tempo suficiente para se espalhar

Dadas essas condições, a seleção aumentará a frequência de mais aptas e diminuirá as menos aptas. Não é uma força — é uma consequência lógica da reprodução diferencial.

{ }Evolução como gradiente descendente distribuído

A seleção natural é notavelmente semelhante ao gradiente descendente no aprendizado de máquina, com algumas diferenças-chave:

População = lote de soluções candidatas
Fitness = função objetivo (mas geralmente multidimensional e não estacionária)
Reprodução = etapa de atualização
= ruído adicionado a parâmetros
Deriva genética = gradiente estocástico (especialmente em pequenas populações)

O otimizador não tem informação de gradiente — é otimização de ordem zero, aprendendo apenas se os parâmetros atuais funcionam. A seleção não tem previsão — não pode se mover por um vale de fitness para alcançar um pico mais alto. Esta é uma limitação conhecida: a evolução pode ficar presa em ótimos locais, assim como o hill-climbing estocástico.

Mas ela rodou por 4 × 10⁹ "iterações" com paralelismo em ~10¹⁸ organismos individuais a qualquer momento. O orçamento de computação é extraordinário.

Deriva Genética: Passeios Aleatórios no Espaço de Frequências

A seleção natural não é a única força evolutiva. A deriva genética — flutuações aleatórias na frequência de devidas ao tamanho finito da população — pode fixar ou eliminar independentemente do fitness.

A relação-chave: a força da deriva genética em relação à seleção é determinada pelo tamanho efetivo da população (Ne) e pelo coeficiente de seleção (s):

Quando |s| >> 1/Ne: a seleção domina (o destino do determinado pelo fitness)
Quando |s| << 1/Ne: a deriva domina (o destino do é essencialmente aleatório)

A maioria das mudanças de em é quase neutra — elas têm efeitos de fitness muito pequenos que são dominados pela deriva, especialmente em populações com Ne pequeno (humanos, grandes mamíferos). Esta é a da teoria neutra (Kimura, 1968): a maior parte da variação de sequência observada é seletivamente neutra, mantida ou eliminada pela deriva.

Implicação prática: ao comparar homólogos entre espécies, a taxa de substituição sinônima (dS) reflete a deriva (neutra), enquanto a taxa de substituição não sinônima (dN) reflete a seleção + deriva. A razão dN/dS (ω):

ω < 1: seleção purificadora (a maioria das mudanças de é deletéria; removida pela seleção)
ω ≈ 1: evolução neutra
ω > 1: seleção positiva (as mudanças de são benéficas; ativamente acumuladas)

A análise de dN/dS é usada para identificar sob seleção positiva (evoluindo rapidamente sob pressão adaptativa) e para testar se códons específicos em um estão sob evolução adaptativa.

Teoria de Coalescência: Olhando para Trás no Tempo

Em vez de perguntar "para onde irá esse ?", podemos perguntar "quando todas as cópias desse compartilharam um ancestral comum?" A teoria de coalescência modela a genealogia de cópias gênicas retroativamente no tempo.

Resultado-chave: em uma população de Ne indivíduos diploides, duas cópias gênicas escolhidas aleatoriamente compartilham um ancestral comum, em média, há 2Ne gerações. A implicação mais profunda:

Humanos têm Ne ≈ 10.000–20.000 (gargalo da história populacional antiga)
A maioria dos pares de cópias gênicas humanas coalesce ~200.000–400.000 anos atrás
Isso define a profundidade temporal da variação de sequência humana

Métodos baseados em coalescência fundamentam:

Estimativa de tempo de divergência em filogenética
Inferência demográfica de dados de genômica de populações (detectando gargalos, expansões e mistura antigos)
Raciocínio genealógico em genética forense

Relógios Moleculares: Sequências como Registros de Tempo

neutras se acumulam em uma taxa aproximadamente constante por geração por sítio — o relógio molecular. Isso permite que as sequências funcionem como relógios moleculares: quanto mais diferentes são duas sequências, mais tempo atrás divergiram.

Aplicações do relógio molecular:

Datação de divergências filogenéticas: quando humanos e chimpanzés compartilharam pela última vez um ancestral comum? (5–7 Ma, calibrado pelo relógio molecular a partir da divergência genômica)
Datação de surtos : métodos filogenéticos Bayesianos (BEAST, TreeTime) usam datas de amostragem e taxas de substituição para datar a origem de surtos (origem do SARS-CoV-2 estimada em novembro–dezembro de 2019)
Datação de de câncer: com taxas de tumoral, é possível estimar quando a primeira impulsionadora ocorreu (alguns cânceres começam 10–20 anos antes do diagnóstico)

O relógio molecular não é perfeitamente constante — varia com a taxa de (maior em de ), tempo de geração e pressão de seleção. Modelos de relógio relaxado contabilizam a variação de taxa entre linhagens.

Filogenética: Lendo a História Evolutiva a partir de Sequências

A filogenética reconstrói as relações evolutivas entre sequências (e os organismos ou que as carregam). A saída é uma árvore filogenética — um diagrama de ramificação mostrando relações e tempos de divergência.

Métodos Baseados em Distância

Calcule distâncias de sequência em pares (porcentagem de divergência, corrigida por Jukes-Cantor), depois agrupe usando algoritmos:

UPGMA: assume um relógio molecular (todas as linhagens evoluem na mesma taxa)
Neighbor-joining (NJ): não assume um relógio; o método rápido padrão para grandes conjuntos de dados

NJ é usado em análises preliminares e filogenética em larga escala onde os métodos de parcimônia e verossimilhança são muito lentos.

Máxima Parcimônia

Seleciona a árvore que minimiza o número total de eventos evolutivos () necessários para explicar as sequências observadas. Computacionalmente difícil (NP-difícil para árvores grandes). Usado para sequências intimamente relacionadas.

Máxima Verossimilhança (ML)

Seleciona a árvore e os parâmetros do modelo que maximizam a probabilidade de observar os sob um modelo de substituição explícito. O padrão ouro para precisão filogenética. Ferramentas: RAxML, IQ-TREE (ambos implementam heurísticas rápidas de ML; IQ-TREE agora é preferido para a maioria das análises).

Os modelos de substituição descrevem as taxas em que ou mudam:

JC69 (Jukes-Cantor): mais simples; todas as substituições igualmente prováveis
GTR+G+I: Reversível no Tempo Geral com taxas distribuídas por Gamma e sítios invariantes; mais flexível e comumente usado

ModelTest ou seleção de modelo integrada do IQ-TREE identifica o modelo de melhor ajuste para um determinado conjunto de dados.

Métodos Bayesianos

BEAST, MrBayes: incorporam distribuições anteriores em parâmetros e amostram da posterior usando MCMC. Podem estimar tempos de divergência, tamanhos populacionais e taxas de migração simultaneamente. Computacionalmente intensivo mas poderoso — o padrão para filogenias datadas e inferência demográfica.

ℹNextStrain e filogenética em tempo real

NextStrain (nextstrain.org) mantém análises filogenéticas em tempo real de influenza, SARS-CoV-2, Ebola, Zika e dezenas de outros patógenos. Ele é atualizado automaticamente à medida que novas sequências são depositadas.

O pipeline (Augur + Auspice) executa MAFFT para , IQ-TREE para inferência filogenética e TreeTime para datação de relógio molecular, depois renderiza uma visualização interativa. Durante a COVID-19, esse pipeline foi como a comunidade científica global rastreou a disseminação de e o surgimento de novas linhagens em quase tempo real.

Seleção Positiva no Genoma Humano

Nem toda evolução humana é deriva neutra. Regiões do sob seleção positiva recente mostram assinaturas características:

Varreduras seletivas: quando um benéfico sobe rapidamente para fixação, ele carrega circundantes com ele (carona). O resultado: uma região de diversidade reduzida e homozigosidade estendida de haplótipo em torno da selecionada. Detectado por estatísticas de homozigosidade estendida de haplótipo (EHH) e iHS (escore de haplótipo integrado).
Varreduras específicas de população: em alta frequência em uma população, mas raras em outras, sugerem adaptação local recente. Exemplos clássicos: LCT (persistência da lactase em populações que criam gado leiteiro), HbS ( da anemia falciforme em regiões endêmicas de malária), EPAS1 (adaptação à altitude em tibetanos).
Seleção balanceadora: algumas são mantidas em frequências intermediárias por seleção que favorece heterozigotos ou alterna ao longo do tempo. Os HLA mostram seleção balanceadora extrema — a diversidade é mantida porque um repertório MHC diverso protege contra uma paisagem de patógenos diversa.

Genômica de Populações: Mapeando a História Humana

A genômica de populações moderna usa dados de SNPs de todo o de milhares de indivíduos para inferir:

Estrutura populacional: () e ADMIXTURE revelam grupos correspondentes a populações ancestrais e proporções de mistura
Padrões de migração: estatísticas F e D-statistics testam fluxo gênico entre populações
Gargalos e expansões: trajetórias de tamanho efetivo da população inferidas da distribuição de tempos de coalescência em pares (métodos PSMC, SMC++)
Mistura arcaica: sequências de Neandertais e Denisovanos introgressaram em humanos modernos em níveis de 1–4% em populações não africanas — detectável a partir de haplótipos introgressados antigos

O Projeto 1000 , gnomAD e o UK Biobank fornecem painéis de referência de genômica de populações usados rotineiramente para pesquisa de frequência de , estimativa de ancestralidade em genética clínica e interpretação de GWAS.

Pensamento Evolutivo na Prática de Bioinformática

Os conceitos evolutivos permeiam a bioinformática:

Ortólogo vs. parálogo: relacionados por especiação (ortólogos) vs. duplicação (parálogos). A identificação de ortólogos é essencial para a genômica comparativa e predição de função gênica.
Sintenia: ordem gênica conservada entre de espécies diferentes, refletindo organização genômica ancestral
Escores de conservação: posições evolutivamente conservadas em de múltiplas sequências são funcionalmente importantes — a das pontuações GERP, PhastCons e PhyloP usadas na predição de patogenicidade de
Reconstrução de sequência ancestral: inferindo a sequência de uma ancestral para estudar a evolução da função

A conservação filogenética é uma das linhas de evidência mais fortes para a patogenicidade de : um perfeitamente conservado em 100 espécies de vertebrados é muito provável de ser funcionalmente importante, e uma que o interrompe é provavelmente prejudicial.

⟷DECODER

Biology

A evolução por seleção natural é o acúmulo de variação hereditária filtrada pelo sucesso reprodutivo diferencial. Mutações geram variação; a seleção retém variantes benéficas; a deriva genética introduz aleatoriedade. A evolução não tem previsão — é uma busca local gulosa sobre paisagens de fitness.

{ } For Developers

A evolução é um gradiente descendente estocástico rodando em paralelo em uma população. Cada organismo é uma solução candidata; reprodução com mutação é o passo de perturbação; fitness é a função de perda. A recombinação sexual é crossover — misturar dois genomas de alto fitness para explorar novas regiões do espaço de solução. A deriva genética é ruído que evita ficar preso em ótimos locais. O algoritmo está rodando há 3,8 bilhões de iterações sem condição de término.

LAB · Algoritmo Genético: Evolução como Otimização

Python · Pyodide

# Evolução como otimização: um algoritmo genético simples.
# Evoluímos uma população de strings de bases em direção a um alvo.

import random
random.seed(42)

TARGET = "ATCGATCGTTACG"
POP_SIZE = 20
MUTATION_RATE = 0.05
BASES = "ATCG"

def fitness(seq):
  return sum(a == b for a, b in zip(seq, TARGET))

def mutate(seq):
  return "".join(
      b if random.random() > MUTATION_RATE else random.choice(BASES)
      for b in seq
  )

def crossover(a, b):
  point = random.randint(1, len(a) - 1)
  return a[:point] + b[point:]

population = ["".join(random.choice(BASES) for _ in TARGET) for _ in range(POP_SIZE)]

for generation in range(50):
  population.sort(key=fitness, reverse=True)
  best = population[0]
  if fitness(best) == len(TARGET):
      print(f"Geração {generation:3}: RESOLVIDO -> {best}")
      break
  if generation % 10 == 0:
      print(f"Geração {generation:3}: melhor={best}  fitness={fitness(best)}/{len(TARGET)}")
  survivors = population[:POP_SIZE // 2]
  offspring = [mutate(crossover(random.choice(survivors), random.choice(survivors)))
               for _ in range(POP_SIZE // 2)]
  population = survivors + offspring
else:
  print(f"Geração final: {population[0]}  fitness={fitness(population[0])}/{len(TARGET)}")

print()
print("Cada geração: mutar + selecionar. Igual à seleção natural.")
print("Alvo:", TARGET)