Todo genoma humano difere da referência em aproximadamente 4–5 milhões de posições. Algumas diferenças causam doenças. A maioria é inofensiva. Poucas conferem vantagens. Entender os tipos de mutações, como surgem e como classificar seus efeitos é fundamental para a genômica clínica, biologia do câncer e análise evolutiva.
Isso não é taxonomia abstrata. Quando você executa um chamador de variantes em um par tumor-normal, cada linha de saída é uma mutação descrita por essas categorias. Quando você interpreta um relatório clínico de variantes, cada entrada é classificada por esse framework. Conhecer os tipos e efeitos das mutações determina quais perguntas você pode fazer e quais ferramentas usa para respondê-las.
Mutação vs. Variante: A Terminologia
Esses termos são frequentemente usados de forma intercambiável, mas na genômica clínica eles têm contextos distintos:
Mutação implica uma mudança patológica — uma variante conhecida por causar doença. É um julgamento clínico.
Variante é o termo neutro para qualquer posição que difere da referência. As variantes são ainda classificadas por evidência:
- Patogênica: sabe-se que causa doença
- Provavelmente patogênica: evidência forte de patogenicidade
- Variante de significado incerto (VUS): evidência insuficiente
- Provavelmente benigna: provavelmente inofensiva
- Benigna: sabe-se não ter efeito sobre a doença
A distinção importa para a comunicação com clínicos e pacientes. Tudo em um genoma é uma variante; muito poucos são mutações no sentido clínico.
Tipos de Variantes por Tamanho e Mecanismo
Variantes de Nucleotídeo Único (SNVs)
Uma mudança de base única. O tipo mais comum de variação genética. Quando se refere a SNVs comuns encontrados com frequência >1% na população, eles são chamados de SNPs (polimorfismos de nucleotídeo único). A maioria das variantes associadas a doenças descobertas em GWAS são SNPs.
SNVs em regiões codificantes são classificados pelo seu efeito na proteína:
Sinônimos (silenciosos): O nucleotídeo muda, mas o códon ainda codifica o mesmo aminoácido (devido à degeneração do código). Sem mudança de aminoácido. Frequentemente assumido como neutro — mas pode afetar o splicing, uso de códon ou estabilidade do mRNA.
Missense: A mudança de nucleotídeo faz com que um aminoácido diferente seja incorporado. O efeito na função proteica depende das propriedades do aminoácido e da posição. Uma substituição conservativa (por exemplo, Leu → Ile, ambos hidrofóbicos) é menos provável de ser prejudicial do que uma radical (por exemplo, Arg → Glu, reversão de carga).
Nonsense: A mudança de nucleotídeo cria um códon de parada prematuro (UAA, UAG, UGA). Produz uma proteína truncada — quase sempre perda de função se o códon de parada é precoce na sequência codificante. O mRNA truncado é frequentemente degradado por NMD (decaimento mediado por códon de parada).
Sítio de splice: Ocorre na sequência de sítio de splice consensual (GT no sítio de splice 5', AG no sítio de splice 3', ou sequências próximas). Rompe o splicing → skipping de éxon, retenção de íntron ou ativação de splice críptico. Frequentemente tão prejudicial quanto mutações nonsense.
Inserções e Deleções (Indels)
Indels em quadro: Comprimento divisível por 3 → insere ou deleta aminoácidos sem romper o quadro de leitura. Tipicamente menos grave do que indels que causam mudança de quadro. Pode deletar um resíduo ou domínio crítico.
Indels de mudança de quadro: Comprimento não divisível por 3 → muda o quadro de leitura de todos os códons downstream. Produz uma sequência de aminoácidos completamente diferente após o indel, geralmente seguida rapidamente por um códon de parada prematuro. Quase sempre perda de função.
Variantes Estruturais (SVs)
Rearranjos de DNA em larga escala afetando centenas de pares de bases a megabases:
- Variantes de Número de Cópia (CNVs): duplicações ou deleções de segmentos cromossômicos. Amplificação gênica (cópias extras → superexpressão de proteína) e deleção (menos cópias → expressão reduzida ou perda de função) são ambas comuns no câncer.
- Inversões: um segmento é invertido em orientação
- Translocações: um segmento se move para um cromossomo diferente (ou uma posição diferente no mesmo cromossomo). Translocações oncogênicas criam genes de fusão: BCR-ABL na LMC (t(9;22)), EML4-ALK no câncer de pulmão, etc.
- Inserções de elementos móveis: retrotransposons ou outros elementos móveis inseridos em genes
Repetições em Tandem
Motivos de sequência curtos repetidos em tandem. Microssatélites (repetições de 2–6 pb) são altamente polimórficos e propensos a erros de deslizamento de replicação. A expansão de repetições de trinucleotídeo é o mecanismo da doença de Huntington (expansão de CAG em HTT), Síndrome do X Frágil (expansão de CGG em FMR1) e outras doenças neurodegenerativas.
Mecanismos de Mutação
Erros de Replicação
A DNA polimerase ocasionalmente incorpora a base errada (a correção de provas reduz isso para ~1/10⁹ por base por replicação). O reparo de incompatibilidade captura então a maioria dos erros restantes. Os poucos que escapam se tornam mutações permanentes.
Dano Químico Espontâneo
- Desaminação: a citosina perde espontaneamente seu grupo amino → uracila (lida como timina). Cria transições C→T, mais comumente em dinucleotídeos CpG. Este é o mecanismo mutacional endógeno mais comum.
- Depurinação: bases de purina são clivadas espontaneamente da cadeia, criando sítios abásicos.
- Oxidação: espécies reativas de oxigênio (ERO) geram 8-oxoguanina, que pode fazer pares errados com adenina → transversões G:C→T:A.
Mutágenos Ambientais
- Radiação UV: cria dímeros de pirimidina ciclobutano e fotoprodutos 6-4 em pirimidinas adjacentes → transições C→T e CC→TT. Assinatura característica em cânceres de pele.
- Fumo de cigarro: hidrocarbonetos aromáticos policíclicos e outros carcinógenos criam adutos volumosos → transversões G→T. Assinatura característica em cânceres de pulmão de fumantes.
- Agentes alquilantes: anexam grupos metil ou etil às bases do DNA → erros durante a replicação.
- Radiação ionizante: quebras de fita dupla → grandes deleções, translocações.
- Citidina desaminases APOBEC: enzimas celulares normalmente envolvidas na imunidade inata; quando desreguladas, causam extensas mutações C→T e C→G em contextos TC. Processo mutacional importante em muitos tipos de câncer.
Assinaturas Mutacionais
O padrão de mutações em um genoma reflete os processos que os causaram. O banco de dados de Assinaturas Mutacionais COSMIC (v3.4 em 2024) cataloga 78 assinaturas de substituição de base única validadas, além de outras para pequenos indels e SVs.
Cada assinatura é caracterizada pelas taxas relativas de todos os 96 tipos de mutação (6 tipos de substituição × 16 contextos de trinucleotídeo). A Assinatura 4 (tabagismo) é dominada por C[G→T]G. A Assinatura 7a/7b (UV) é dominada por C[C→T]C. A Assinatura 3 (deficiência de recombinação homóloga, encontrada em tumores com mutação BRCA1/2) é dominada por deleções.
Decompor as mutações de um tumor em assinaturas mutacionais revela a etiologia — o que causou as mutações — e pode ter implicações clínicas (assinatura semelhante a BRCA1/2 → pode responder a inibidores de PARP).
Frameworks de Classificação de Variantes
Diretrizes ACMG/AMP
O padrão para classificação de variantes germinativas (usadas em laboratórios de genética clínica) são as diretrizes ACMG/AMP de 2015. Elas usam uma combinação de critérios de evidência:
- Frequência populacional: A variante é comum na população geral? Comum = menos provavelmente patogênica.
- Predições computacionais: Ferramentas (SIFT, PolyPhen-2, AlphaMissense) preveem que é prejudicial?
- Estudos funcionais: Ela rompe a função proteica em ensaios experimentais?
- Segregação: A variante co-segrega com a doença em famílias afetadas?
- Variantes patogênicas conhecidas: É igual ou similar a uma variante patogênica previamente validada?
As evidências são combinadas para alcançar uma das 5 classificações (patogênica, provavelmente patogênica, VUS, provavelmente benigna, benigna).
OncoKB e Oncogenômica Clínica
Para variantes somáticas (câncer), sistemas de classificação separados se aplicam. O OncoKB classifica variantes pela sua acionabilidade clínica — se há um medicamento aprovado, um ensaio clínico ou apenas evidência biológica.
Uma mutação BRAF V600E em melanoma é Nível 1 (terapia aprovada pela FDA: vemurafenibe, dabrafenibe). A mesma mutação no colangiocarcinoma pode ser Nível 3A (evidência de ensaios clínicos, não aprovado). Cânceres diferentes, mesma variante, implicações clínicas diferentes.
O Formato de Arquivo VCF
Os dados de variantes são armazenados em arquivos VCF (Variant Call Format). Este é o formato universal para dados de variantes genômicas.
##fileformat=VCFv4.2
##reference=GRCh38
##FILTER=<ID=PASS,Description="All filters passed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read depth">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1
chr17 7674220 rs28934578 G T . PASS AF=0.001; GT:DP 0/1:45
chr7 140453136 . A T 100 PASS SOMATIC; GT:DP 0/1:120
Campos-chave:
- CHROM/POS: cromossomo e posição baseada em 1
- REF/ALT: alelos de referência e alternativo
- QUAL: escore de qualidade da variante
- FILTER: PASS ou razão para filtragem
- INFO: anotações delimitadas por ponto e vírgula (frequência alélica, efeito funcional, etc.)
- FORMAT/SAMPLE: dados de genótipo por amostra
O campo GT (genótipo) codifica os alelos: 0/0 = homozigoto de referência, 0/1 = heterozigoto, 1/1 = homozigoto alternativo. Variantes somáticas em tumores são frequentemente 0/1 com uma fração de alelo variante (VAF) muito abaixo de 50% devido à heterogeneidade tumoral e contaminação de células normais.
Ferramentas de anotação de VCF (ANNOVAR, VEP, SnpEff) adicionam efeitos funcionais previstos ao campo INFO.
Principais Bancos de Dados Populacionais
dbSNP: banco de dados do NCBI de variantes conhecidas. Atribui números rs a variantes comuns e observadas clinicamente. Uma variante no dbSNP não é necessariamente benigna — significa apenas que foi observada antes.
gnomAD (Banco de Dados de Agregação Genômica): ~800.000 exomas e ~76.000 genomas inteiros de populações diversas. O banco de dados de frequência populacional mais importante. Uma variante observada em milhares de indivíduos do gnomAD quase certamente não é uma variante de doença de alta penetrância.
ClinVar: banco de dados do NCBI de associações variante-doença. Agrega classificações de laboratórios clínicos, pesquisadores e fontes curadas. A referência primária para interpretação clínica de variantes.
COSMIC (Catálogo de Mutações Somáticas no Câncer): banco de dados de mutações somáticas de sequenciamento de tumores. Contém >8 milhões de mutações únicas de >40.000 amostras de tumor. Essencial para identificar mutações oncogênicas e assinaturas mutacionais.
Entender esses bancos de dados — seu escopo, suas limitações e como consultá-los — é a base da genômica clínica e da bioinformática do câncer. No Capítulo 6.5 trabalharemos diretamente com arquivos VCF em Python para realizar essa análise computacionalmente.