Parte 2·2.2·14 min de leitura

Genes: Funções no Código-Fonte

Um gene não é apenas um trecho de DNA — é uma unidade de informação com lógica regulatória, estrutura interna e entradas e saídas definidas.

genéticaestrutura de generegulação

No capítulo anterior, estabelecemos que o genoma é uma string de ~3 bilhões de caracteres. Mas uma string sozinha não é um programa. Um programa precisa de estrutura: unidades definidas com nomes, entradas, saídas e regras para quando executar. Na biologia, essa estrutura é fornecida pelos genes.

Um gene é a unidade fundamental de informação biológica — um trecho de DNA com contexto regulatório suficiente para ser seletivamente lido, convertido em RNA e (geralmente) traduzido em proteína. Entender a estrutura dos genes é essencial porque toda ferramenta de bioinformática que trabalha com genomas — chamadores de variantes, pipelines de RNA-seq, software de anotação — raciocina sobre coordenadas de genes, limites de éxons, sítios de splicing e regiões regulatórias.

O Que um Gene Realmente É

Aqui está uma definição que resistirá melhor do que a versão casual: um gene é uma unidade hereditária de sequência que pode ser transcrita em RNA, onde essa transcrição é controlada por elementos regulatórios associados.

Note o que está faltando nessa definição: "codifica uma proteína". Cerca de 1,5% do genoma humano codifica proteínas, mas aproximadamente 80% é transcrito em RNA em algum momento. Muitos desses RNAs não codificantes têm funções regulatórias importantes. Um gene que produz apenas RNA não codificante ainda é um gene.

O conceito evolutivo de gene

A definição de "gene" foi revisada várias vezes desde que o termo foi cunhado em 1909. A genética precoce definia genes por seus efeitos fenotípicos. A biologia molecular os redefiniu como sequências de DNA que codificam proteínas. A genômica forçou outra revisão: alguns genes codificam apenas RNA, alguns produzem múltiplas proteínas via splicing alternativo, e alguns se sobrepõem com outros em fitas opostas. A definição operacional que usamos aqui — uma unidade de transcrição com contexto regulatório — reflete o consenso de trabalho atual.

Estrutura do Gene: A Anatomia de uma Função

Um gene codificante de proteínas em um eucarioto tem vários componentes, cada um com um papel distinto:

O Promotor

O promotor é uma sequência regulatória upstream do gene (tipicamente dentro de ~2000 pb do sítio de início de transcrição) onde a maquinaria de transcrição se monta. Ele contém o promotor central — sequências de reconhecimento para a RNA polimerase — e frequentemente sequências adicionais que ligam proteínas regulatórias chamadas fatores de transcrição.

Pense no promotor como a assinatura de uma função combinada com seu modificador de acesso. Ele define: este gene pode ser chamado? Em que condições? Com que entradas (fatores de transcrição)?

Os elementos clássicos do promotor central incluem:

  • Caixa TATA (~−25 a −30 do sítio de início) — sítio de ligação para TBP (proteína de ligação TATA), parte da maquinaria basal de transcrição
  • Elemento iniciador (no sítio +1) — presente em muitos promotores sem caixa TATA

Muitos promotores humanos também têm ilhas CpG — regiões com alto conteúdo GC e muitos dinucleotídeos CpG que resistem à metilação em genes ativos. A metilação de CpG é um mecanismo epigenético chave de silenciamento, abordado no Capítulo 3.2.

Enhancers e Silenciadores

Enhancers são sequências regulatórias que aumentam a transcrição quando ligadas por fatores de transcrição específicos. Podem estar localizados a milhares ou até centenas de milhares de pares de bases do gene que regulam — dobrando-se no espaço 3D para contatar o promotor.

Silenciadores funcionam de forma semelhante, mas diminuem a transcrição.

{ }Enhancers como variáveis de ambiente

Um enhancer é como uma variável de ambiente passada a um processo de build. O promotor do gene é o script de build — ele roda, mas o que ele faz depende de quais variáveis de ambiente estão definidas. Um enhancer específico do fígado que liga HNF4α (um fator de transcrição hepático) ativará genes apenas em células hepáticas porque apenas células hepáticas têm HNF4α disponível. O mesmo gene em um neurônio, sem esse fator de transcrição, permanece silente.

Éxons e Íntrons

Quando um gene codificante de proteínas é transcrito, a cópia completa de RNA — chamada de pré-mRNA — inclui tanto as sequências codificantes quanto as sequências não codificantes intermediárias:

  • Éxons — sequências que acabam no mRNA maduro (a palavra "éxon" = "expresso")
  • Íntrons — sequências removidas por splicing antes que o mRNA saia do núcleo ("íntron" = "interveniente")

Após a transcrição, um processo chamado splicing de RNA remove os íntrons e une os éxons. O resultado é um mRNA maduro com apenas as sequências codificantes e regulatórias necessárias para a tradução.

O gene médio codificante de proteínas humanas tem ~9 éxons e ~8 íntrons. Os éxons têm em média ~200 pb; os íntrons têm em média ~3.500 pb. A sequência codificante real (a janela de leitura aberta, ou ORF) é tipicamente muito menor do que a extensão total do gene, que pode se estender por 100 kb ou mais de DNA genômico.

{ }Íntrons como código comentado

Os íntrons parecem superficialmente como comentários ou código morto — sequências presentes no DNA mas removidas antes da execução. Mas ao contrário do código comentado, os íntrons não são inertes. Muitos íntrons contêm elementos regulatórios: sinais de sítio de splicing, RNAs regulatórios e até genes pequenos inteiros. A maquinaria de splicing que os remove também é alvo de regulação do splicing alternativo, que pode mudar completamente o produto proteico.

Sítios de Splicing

Os limites entre éxons e íntrons são definidos por sequências consenso de sítio de splicing. O sítio de splicing 5' (limite éxon|íntron) tipicamente começa com GT (GU no RNA); o sítio de splicing 3' (limite íntron|éxon) termina com AG. A frase "regra GT-AG" é um mnemônico útil.

Dentro do íntron, uma sequência de ponto de ramificação (~20–50 pb upstream do sítio de splicing 3') forma uma estrutura em laço durante o splicing. O spliceossomo — um grande complexo RNA-proteína — catalisa a reação.

Mutações nos sítios de splicing são uma classe importante de variantes patogênicas. Uma única mudança nucleotídica no GT ou AG pode causar skipping de éxon (o éxon fica incluído no íntron e é removido), retenção de íntron (o íntron acaba no mRNA) ou ativação de sítio de splicing críptico. Todos esses alteram ou destroem o produto proteico.

A Sequência Codificante (CDS) e a Janela de Leitura Aberta

A sequência codificante (CDS) é a porção do mRNA maduro que é traduzida em proteína. Começa com um códon de início (AUG, codificando metionina) e termina com um códon de parada (UAA, UAG ou UGA).

A CDS está embutida no mRNA entre UTRs — regiões não traduzidas:

  • 5' UTR — entre o cap e o códon de início; contém sítios de ligação ao ribossomo e elementos regulatórios
  • 3' UTR — entre o códon de parada e a cauda poli-A; contém sequências regulatórias que influenciam a estabilidade do mRNA, a eficiência de tradução e a localização subcelular
UTRs não são apenas sequências flanqueadoras

A 3' UTR é um hub importante para regulação pós-transcricional. Ela contém sítios de ligação para microRNAs — pequenos RNAs não codificantes que visam mRNAs para degradação ou silenciamento traducional. Mais de 60% dos genes codificantes de proteínas humanas são regulados por microRNAs. Ao analisar expressão gênica diferencial, mutações ou variantes na UTR que afetam sítios de ligação de microRNA podem ter grandes efeitos fenotípicos mesmo que não alterem a sequência de aminoácidos.

A Tabela de Códons: Uma Lookup Table para Tradução

O código genético mapeia tripletos de nucleotídeos de RNA (códons) para aminoácidos. Há 4³ = 64 possíveis códons e 20 aminoácidos, então a maioria dos aminoácidos é codificada por múltiplos códons — isso é chamado de degenerescência ou redundância.

O código é:

  • Universal — quase idêntico em toda a vida (com pequenas exceções em algumas mitocôndrias e organismos)
  • Degenerado — múltiplos códons mapeiam para o mesmo aminoácido (por exemplo, GCU, GCC, GCA, GCG todos codificam alanina)
  • Não sobreposto — cada nucleotídeo pertence a exatamente um códon
  • Sem vírgulas — sem delimitadores entre códons; a janela de leitura é estabelecida pelo códon de início

A degenerescência não é aleatória. Códons sinônimos (codificando o mesmo aminoácido) frequentemente diferem apenas na terceira posição — a posição de "wobble". Isso torna o código mais robusto a mutações pontuais: uma mudança na terceira posição do códon frequentemente não muda o aminoácido.

Pseudogenes e Famílias Gênicas

Nem tudo que parece um gene é funcional. Pseudogenes são sequências que se assemelham a genes, mas perderam função por mutações. Surgem quando um gene é duplicado e uma cópia acumula mutações inativadoras.

Mais produtivamente, a duplicação gênica é o mecanismo primário para evoluir novas funções gênicas. O genoma humano contém muitas famílias gênicas — grupos de genes relacionados que surgiram por duplicação e divergência. Os genes da hemoglobina (HBA1, HBA2, HBB, HBD, etc.) são um exemplo clássico: todos relacionados, todos codificando proteínas transportadoras de oxigênio, mas com padrões de expressão diferentes e afinidades de oxigênio ajustadas ao estágio de desenvolvimento e tipo de tecido.

Lendo um Arquivo de Anotação Gênica

Na prática, os genes são descritos em arquivos de anotação — arquivos GTF (Gene Transfer Format) ou GFF3 que listam coordenadas genômicas para cada feature. Toda análise de RNA-seq começa mapeando reads a um genoma de referência e contando reads por gene, o que requer um arquivo de anotação gênica.

Um registro GTF se parece com isto:

chr17  HAVANA  gene        43044295  43125483  .  -  .  gene_id "ENSG00000012048"; gene_name "BRCA1";
chr17  HAVANA  transcript  43044295  43125483  .  -  .  gene_id "ENSG00000012048"; transcript_id "ENST00000357654";
chr17  HAVANA  exon        43124017  43125483  .  -  .  gene_id "ENSG00000012048"; exon_number "1";
chr17  HAVANA  CDS         43124017  43125364  .  -  .  gene_id "ENSG00000012048"; protein_id "ENSP00000350283";

Campos: cromossomo, fonte, tipo de feature, início, fim, pontuação, fita, frame, atributos.

As coordenadas são baseadas em 1 e meio-abertas. A fita (+ ou -) importa: genes na fita negativa são lidos da direita para a esquerda nas coordenadas genômicas, então a posição 43125483 é a extremidade 5' do BRCA1.

Entender arquivos GTF/GFF3 é pré-requisito para: RNA-seq, ChIP-seq, anotação de variantes, design de guias CRISPR e a maior parte do trabalho em genome browsers.

Por Que a Estrutura Gênica Importa para a Bioinformática

Quase toda análise de bioinformática envolve limites de genes em algum nível:

  • Anotação de variantes: este SNP está em um éxon codificante? Em um sítio de splicing? Em uma UTR? O impacto funcional depende inteiramente de onde ele cai na estrutura do gene.
  • RNA-seq: reads são contados por gene, por transcrito, às vezes por éxon. A análise em nível de isoforma requer conhecimento dos limites éxon-íntron.
  • ChIP-seq: onde um fator de transcrição está se ligando em relação aos promotores de genes próximos?
  • Design de CRISPR: guias próximos a um sítio de splicing podem interromper o splicing mesmo que não atinjam a sequência codificante diretamente.

O gene não é apenas um rótulo ou um nome. É uma unidade precisa e estruturada com lógica regulatória, organização interna e saídas definidas. Tratá-lo como uma simples posição em um cromossomo perde a maior parte da biologia.