Parte 6·6.1·12 min de leitura

Mutações e Variantes

Mutações são mudanças na sequência de DNA — a matéria-prima da evolução, os impulsionadores do câncer e os alvos da genômica clínica.

mutaçõesvariantesgenômicaSNPsindels

Todo genoma humano difere da referência em aproximadamente 4–5 milhões de posições. Algumas diferenças causam doenças. A maioria é inofensiva. Poucas conferem vantagens. Entender os tipos de mutações, como surgem e como classificar seus efeitos é fundamental para a genômica clínica, biologia do câncer e análise evolutiva.

Isso não é taxonomia abstrata. Quando você executa um chamador de variantes em um par tumor-normal, cada linha de saída é uma mutação descrita por essas categorias. Quando você interpreta um relatório clínico de variantes, cada entrada é classificada por esse framework. Conhecer os tipos e efeitos das mutações determina quais perguntas você pode fazer e quais ferramentas usa para respondê-las.

Mutação vs. Variante: A Terminologia

Esses termos são frequentemente usados de forma intercambiável, mas na genômica clínica eles têm contextos distintos:

Mutação implica uma mudança patológica — uma variante conhecida por causar doença. É um julgamento clínico.

Variante é o termo neutro para qualquer posição que difere da referência. As variantes são ainda classificadas por evidência:

  • Patogênica: sabe-se que causa doença
  • Provavelmente patogênica: evidência forte de patogenicidade
  • Variante de significado incerto (VUS): evidência insuficiente
  • Provavelmente benigna: provavelmente inofensiva
  • Benigna: sabe-se não ter efeito sobre a doença

A distinção importa para a comunicação com clínicos e pacientes. Tudo em um genoma é uma variante; muito poucos são mutações no sentido clínico.

Tipos de Variantes por Tamanho e Mecanismo

Variantes de Nucleotídeo Único (SNVs)

Uma mudança de base única. O tipo mais comum de variação genética. Quando se refere a SNVs comuns encontrados com frequência >1% na população, eles são chamados de SNPs (polimorfismos de nucleotídeo único). A maioria das variantes associadas a doenças descobertas em GWAS são SNPs.

SNVs em regiões codificantes são classificados pelo seu efeito na proteína:

Sinônimos (silenciosos): O nucleotídeo muda, mas o códon ainda codifica o mesmo aminoácido (devido à degeneração do código). Sem mudança de aminoácido. Frequentemente assumido como neutro — mas pode afetar o splicing, uso de códon ou estabilidade do mRNA.

Missense: A mudança de nucleotídeo faz com que um aminoácido diferente seja incorporado. O efeito na função proteica depende das propriedades do aminoácido e da posição. Uma substituição conservativa (por exemplo, Leu → Ile, ambos hidrofóbicos) é menos provável de ser prejudicial do que uma radical (por exemplo, Arg → Glu, reversão de carga).

Nonsense: A mudança de nucleotídeo cria um códon de parada prematuro (UAA, UAG, UGA). Produz uma proteína truncada — quase sempre perda de função se o códon de parada é precoce na sequência codificante. O mRNA truncado é frequentemente degradado por NMD (decaimento mediado por códon de parada).

Sítio de splice: Ocorre na sequência de sítio de splice consensual (GT no sítio de splice 5', AG no sítio de splice 3', ou sequências próximas). Rompe o splicing → skipping de éxon, retenção de íntron ou ativação de splice críptico. Frequentemente tão prejudicial quanto mutações nonsense.

Inserções e Deleções (Indels)

Indels em quadro: Comprimento divisível por 3 → insere ou deleta aminoácidos sem romper o quadro de leitura. Tipicamente menos grave do que indels que causam mudança de quadro. Pode deletar um resíduo ou domínio crítico.

Indels de mudança de quadro: Comprimento não divisível por 3 → muda o quadro de leitura de todos os códons downstream. Produz uma sequência de aminoácidos completamente diferente após o indel, geralmente seguida rapidamente por um códon de parada prematuro. Quase sempre perda de função.

Variantes Estruturais (SVs)

Rearranjos de DNA em larga escala afetando centenas de pares de bases a megabases:

  • Variantes de Número de Cópia (CNVs): duplicações ou deleções de segmentos cromossômicos. Amplificação gênica (cópias extras → superexpressão de proteína) e deleção (menos cópias → expressão reduzida ou perda de função) são ambas comuns no câncer.
  • Inversões: um segmento é invertido em orientação
  • Translocações: um segmento se move para um cromossomo diferente (ou uma posição diferente no mesmo cromossomo). Translocações oncogênicas criam genes de fusão: BCR-ABL na LMC (t(9;22)), EML4-ALK no câncer de pulmão, etc.
  • Inserções de elementos móveis: retrotransposons ou outros elementos móveis inseridos em genes

Repetições em Tandem

Motivos de sequência curtos repetidos em tandem. Microssatélites (repetições de 2–6 pb) são altamente polimórficos e propensos a erros de deslizamento de replicação. A expansão de repetições de trinucleotídeo é o mecanismo da doença de Huntington (expansão de CAG em HTT), Síndrome do X Frágil (expansão de CGG em FMR1) e outras doenças neurodegenerativas.

Mecanismos de Mutação

Erros de Replicação

A DNA polimerase ocasionalmente incorpora a base errada (a correção de provas reduz isso para ~1/10⁹ por base por replicação). O reparo de incompatibilidade captura então a maioria dos erros restantes. Os poucos que escapam se tornam mutações permanentes.

Dano Químico Espontâneo

  • Desaminação: a citosina perde espontaneamente seu grupo amino → uracila (lida como timina). Cria transições C→T, mais comumente em dinucleotídeos CpG. Este é o mecanismo mutacional endógeno mais comum.
  • Depurinação: bases de purina são clivadas espontaneamente da cadeia, criando sítios abásicos.
  • Oxidação: espécies reativas de oxigênio (ERO) geram 8-oxoguanina, que pode fazer pares errados com adenina → transversões G:C→T:A.

Mutágenos Ambientais

  • Radiação UV: cria dímeros de pirimidina ciclobutano e fotoprodutos 6-4 em pirimidinas adjacentes → transições C→T e CC→TT. Assinatura característica em cânceres de pele.
  • Fumo de cigarro: hidrocarbonetos aromáticos policíclicos e outros carcinógenos criam adutos volumosos → transversões G→T. Assinatura característica em cânceres de pulmão de fumantes.
  • Agentes alquilantes: anexam grupos metil ou etil às bases do DNA → erros durante a replicação.
  • Radiação ionizante: quebras de fita dupla → grandes deleções, translocações.
  • Citidina desaminases APOBEC: enzimas celulares normalmente envolvidas na imunidade inata; quando desreguladas, causam extensas mutações C→T e C→G em contextos TC. Processo mutacional importante em muitos tipos de câncer.

Assinaturas Mutacionais

O padrão de mutações em um genoma reflete os processos que os causaram. O banco de dados de Assinaturas Mutacionais COSMIC (v3.4 em 2024) cataloga 78 assinaturas de substituição de base única validadas, além de outras para pequenos indels e SVs.

Cada assinatura é caracterizada pelas taxas relativas de todos os 96 tipos de mutação (6 tipos de substituição × 16 contextos de trinucleotídeo). A Assinatura 4 (tabagismo) é dominada por C[G→T]G. A Assinatura 7a/7b (UV) é dominada por C[C→T]C. A Assinatura 3 (deficiência de recombinação homóloga, encontrada em tumores com mutação BRCA1/2) é dominada por deleções.

Decompor as mutações de um tumor em assinaturas mutacionais revela a etiologia — o que causou as mutações — e pode ter implicações clínicas (assinatura semelhante a BRCA1/2 → pode responder a inibidores de PARP).

Frameworks de Classificação de Variantes

Diretrizes ACMG/AMP

O padrão para classificação de variantes germinativas (usadas em laboratórios de genética clínica) são as diretrizes ACMG/AMP de 2015. Elas usam uma combinação de critérios de evidência:

  • Frequência populacional: A variante é comum na população geral? Comum = menos provavelmente patogênica.
  • Predições computacionais: Ferramentas (SIFT, PolyPhen-2, AlphaMissense) preveem que é prejudicial?
  • Estudos funcionais: Ela rompe a função proteica em ensaios experimentais?
  • Segregação: A variante co-segrega com a doença em famílias afetadas?
  • Variantes patogênicas conhecidas: É igual ou similar a uma variante patogênica previamente validada?

As evidências são combinadas para alcançar uma das 5 classificações (patogênica, provavelmente patogênica, VUS, provavelmente benigna, benigna).

OncoKB e Oncogenômica Clínica

Para variantes somáticas (câncer), sistemas de classificação separados se aplicam. O OncoKB classifica variantes pela sua acionabilidade clínica — se há um medicamento aprovado, um ensaio clínico ou apenas evidência biológica.

Uma mutação BRAF V600E em melanoma é Nível 1 (terapia aprovada pela FDA: vemurafenibe, dabrafenibe). A mesma mutação no colangiocarcinoma pode ser Nível 3A (evidência de ensaios clínicos, não aprovado). Cânceres diferentes, mesma variante, implicações clínicas diferentes.

O Formato de Arquivo VCF

Os dados de variantes são armazenados em arquivos VCF (Variant Call Format). Este é o formato universal para dados de variantes genômicas.

##fileformat=VCFv4.2
##reference=GRCh38
##FILTER=<ID=PASS,Description="All filters passed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read depth">
#CHROM POS     ID          REF ALT QUAL FILTER INFO           FORMAT  SAMPLE1
chr17  7674220 rs28934578  G   T   .    PASS   AF=0.001;      GT:DP   0/1:45
chr7   140453136 .         A   T   100  PASS   SOMATIC;       GT:DP   0/1:120

Campos-chave:

  • CHROM/POS: cromossomo e posição baseada em 1
  • REF/ALT: alelos de referência e alternativo
  • QUAL: escore de qualidade da variante
  • FILTER: PASS ou razão para filtragem
  • INFO: anotações delimitadas por ponto e vírgula (frequência alélica, efeito funcional, etc.)
  • FORMAT/SAMPLE: dados de genótipo por amostra

O campo GT (genótipo) codifica os alelos: 0/0 = homozigoto de referência, 0/1 = heterozigoto, 1/1 = homozigoto alternativo. Variantes somáticas em tumores são frequentemente 0/1 com uma fração de alelo variante (VAF) muito abaixo de 50% devido à heterogeneidade tumoral e contaminação de células normais.

Ferramentas de anotação de VCF (ANNOVAR, VEP, SnpEff) adicionam efeitos funcionais previstos ao campo INFO.

Principais Bancos de Dados Populacionais

dbSNP: banco de dados do NCBI de variantes conhecidas. Atribui números rs a variantes comuns e observadas clinicamente. Uma variante no dbSNP não é necessariamente benigna — significa apenas que foi observada antes.

gnomAD (Banco de Dados de Agregação Genômica): ~800.000 exomas e ~76.000 genomas inteiros de populações diversas. O banco de dados de frequência populacional mais importante. Uma variante observada em milhares de indivíduos do gnomAD quase certamente não é uma variante de doença de alta penetrância.

ClinVar: banco de dados do NCBI de associações variante-doença. Agrega classificações de laboratórios clínicos, pesquisadores e fontes curadas. A referência primária para interpretação clínica de variantes.

COSMIC (Catálogo de Mutações Somáticas no Câncer): banco de dados de mutações somáticas de sequenciamento de tumores. Contém >8 milhões de mutações únicas de >40.000 amostras de tumor. Essencial para identificar mutações oncogênicas e assinaturas mutacionais.

Entender esses bancos de dados — seu escopo, suas limitações e como consultá-los — é a base da genômica clínica e da bioinformática do câncer. No Capítulo 6.5 trabalharemos diretamente com arquivos VCF em Python para realizar essa análise computacionalmente.