Genes: Funções no Código-Fonte

No capítulo anterior, estabelecemos que o é uma string de ~3 bilhões de caracteres. Mas uma string sozinha não é um programa. Um programa precisa de estrutura: unidades definidas com nomes, entradas, saídas e regras para quando executar. Na biologia, essa estrutura é fornecida pelos .

Um é a unidade fundamental de informação biológica — um trecho de com contexto regulatório suficiente para ser seletivamente lido, convertido em e (geralmente) em . Entender a estrutura dos é essencial porque toda ferramenta de bioinformática que trabalha com — chamadores de , pipelines de , software de anotação — raciocina sobre coordenadas de , limites de , sítios de e regiões regulatórias.

O Que um Gene Realmente É

Aqui está uma definição que resistirá melhor do que a versão casual: um é uma unidade hereditária de sequência que pode ser transcrita em , onde essa é controlada por elementos regulatórios associados.

Note o que está faltando nessa definição: "codifica uma ". Cerca de 1,5% do humano codifica , mas aproximadamente 80% é em em algum momento. Muitos desses RNAs não codificantes têm funções regulatórias importantes. Um que produz apenas não codificante ainda é um .

ℹO conceito evolutivo de gene

A definição de "" foi revisada várias vezes desde que o termo foi cunhado em 1909. A genética precoce definia por seus efeitos fenotípicos. A biologia molecular os redefiniu como sequências de que codificam . A genômica forçou outra revisão: alguns codificam apenas , alguns produzem múltiplas , e alguns se sobrepõem com outros em fitas opostas. A definição operacional que usamos aqui — uma unidade de com contexto regulatório — reflete o consenso de trabalho atual.

Estrutura do Gene: A Anatomia de uma Função

Um codificante de em um eucarioto tem vários componentes, cada um com um papel distinto:

O Promotor

O é uma sequência regulatória upstream do (tipicamente dentro de ~2000 pb do sítio de início de ) onde a maquinaria de se monta. Ele contém o central — sequências de reconhecimento para a polimerase — e frequentemente sequências adicionais que ligam regulatórias chamadas .

Pense no como a assinatura de uma função combinada com seu modificador de acesso. Ele define: este pode ser chamado? Em que condições? Com que entradas ()?

Os elementos clássicos do central incluem:

Caixa TATA (~−25 a −30 do sítio de início) — sítio de ligação para TBP ( de ligação TATA), parte da maquinaria basal de
Elemento iniciador (no sítio +1) — presente em muitos sem caixa TATA

Muitos humanos também têm ilhas CpG — regiões com alto conteúdo GC e muitos dinucleotídeos CpG que resistem à metilação em ativos. A metilação de CpG é um mecanismo epigenético chave de silenciamento, abordado no Capítulo 3.2.

Enhancers e Silenciadores

são sequências regulatórias que aumentam a quando ligadas por específicos. Podem estar localizados a milhares ou até centenas de milhares de pares de do que regulam — dobrando-se no espaço 3D para contatar o .

Silenciadores funcionam de forma semelhante, mas diminuem a .

{ }Enhancers como variáveis de ambiente

Um é como uma variável de ambiente passada a um processo de build. O do é o script de build — ele roda, mas o que ele faz depende de quais variáveis de ambiente estão definidas. Um específico do fígado que liga HNF4α (um hepático) ativará apenas em hepáticas porque apenas hepáticas têm HNF4α disponível. O mesmo em um , sem esse , permanece silente.

Éxons e Íntrons

Quando um codificante de é , a cópia completa de — chamada de pré- — inclui tanto as sequências codificantes quanto as sequências não codificantes intermediárias:

— sequências que acabam no maduro (a palavra "" = "expresso")
— sequências removidas por antes que o saia do núcleo ("" = "interveniente")

Após a , um processo chamado de remove os e une os . O resultado é um maduro com apenas as sequências codificantes e regulatórias necessárias para a .

O médio codificante de humanas tem ~9 e ~8 . Os têm em média ~200 pb; os têm em média ~3.500 pb. A sequência codificante real (a janela de aberta, ou ORF) é tipicamente muito menor do que a extensão total do , que pode se estender por 100 kb ou mais de genômico.

{ }Íntrons como código comentado

Os parecem superficialmente como comentários ou código morto — sequências presentes no mas removidas antes da execução. Mas ao contrário do código comentado, os não são inertes. Muitos contêm elementos regulatórios: sinais de sítio de , RNAs regulatórios e até pequenos inteiros. A maquinaria de que os remove também é alvo de regulação do , que pode mudar completamente o produto proteico.

Sítios de Splicing

Os limites entre e são definidos por sequências consenso de sítio de . O sítio de 5' (limite |) tipicamente começa com GT (GU no ); o sítio de 3' (limite |) termina com AG. A frase "regra GT-AG" é um mnemônico útil.

Dentro do , uma sequência de ponto de ramificação (~20–50 pb upstream do sítio de 3') forma uma estrutura em laço durante o . O spliceossomo — um grande complexo - — catalisa a reação.

nos sítios de são uma classe importante de patogênicas. Uma única mudança nucleotídica no GT ou AG pode causar skipping de (o fica incluído no e é removido), retenção de (o acaba no ) ou ativação de sítio de críptico. Todos esses alteram ou destroem o produto proteico.

A Sequência Codificante (CDS) e a Janela de Leitura Aberta

A sequência codificante (CDS) é a porção do maduro que é traduzida em . Começa com um códon de início (AUG, codificando metionina) e termina com um códon de parada (UAA, UAG ou UGA).

A CDS está embutida no entre UTRs — regiões não traduzidas:

5' UTR — entre o cap e o códon de início; contém sítios de ligação ao ribossomo e elementos regulatórios
3' UTR — entre o códon de parada e a cauda poli-A; contém sequências regulatórias que influenciam a estabilidade do , a eficiência de e a localização subcelular

★UTRs não são apenas sequências flanqueadoras

A 3' UTR é um hub importante para regulação pós-transcricional. Ela contém sítios de ligação para microRNAs — pequenos RNAs não codificantes que visam mRNAs para degradação ou silenciamento traducional. Mais de 60% dos codificantes de humanas são regulados por microRNAs. Ao analisar diferencial, ou na UTR que afetam sítios de ligação de microRNA podem ter grandes efeitos fenotípicos mesmo que não alterem a sequência de .

A Tabela de Códons: Uma Lookup Table para Tradução

O código genético mapeia tripletos de de (códons) para . Há 4³ = 64 possíveis códons e 20 , então a maioria dos é codificada por múltiplos códons — isso é chamado de degenerescência ou redundância.

O código é:

Universal — quase idêntico em toda a vida (com pequenas exceções em algumas mitocôndrias e organismos)
Degenerado — múltiplos códons mapeiam para o mesmo (por exemplo, GCU, GCC, GCA, GCG todos codificam alanina)
Não sobreposto — cada pertence a exatamente um códon
Sem vírgulas — sem delimitadores entre códons; a janela de é estabelecida pelo códon de início

A degenerescência não é aleatória. Códons sinônimos (codificando o mesmo ) frequentemente diferem apenas na terceira posição — a posição de "wobble". Isso torna o código mais robusto a pontuais: uma mudança na terceira posição do códon frequentemente não muda o .

Pseudogenes e Famílias Gênicas

Nem tudo que parece um é funcional. Pseudogenes são sequências que se assemelham a , mas perderam função por . Surgem quando um é duplicado e uma cópia acumula inativadoras.

Mais produtivamente, a duplicação gênica é o mecanismo primário para evoluir novas funções gênicas. O humano contém muitas famílias gênicas — grupos de relacionados que surgiram por duplicação e divergência. Os da hemoglobina (HBA1, HBA2, HBB, HBD, etc.) são um exemplo clássico: todos relacionados, todos codificando transportadoras de oxigênio, mas com padrões de expressão diferentes e afinidades de oxigênio ajustadas ao estágio de desenvolvimento e tipo de tecido.

Lendo um Arquivo de Anotação Gênica

Na prática, os são descritos em arquivos de anotação — arquivos GTF ( Transfer Format) ou GFF3 que listam coordenadas genômicas para cada feature. Toda análise de começa mapeando a um de referência e contando por , o que requer um arquivo de anotação gênica.

Um registro GTF se parece com isto:

chr17  HAVANA  gene        43044295  43125483  .  -  .  gene_id "ENSG00000012048"; gene_name "BRCA1";
chr17  HAVANA  transcript  43044295  43125483  .  -  .  gene_id "ENSG00000012048"; transcript_id "ENST00000357654";
chr17  HAVANA  exon        43124017  43125483  .  -  .  gene_id "ENSG00000012048"; exon_number "1";
chr17  HAVANA  CDS         43124017  43125364  .  -  .  gene_id "ENSG00000012048"; protein_id "ENSP00000350283";

Campos: , fonte, tipo de feature, início, fim, pontuação, fita, frame, atributos.

As coordenadas são baseadas em 1 e meio-abertas. A fita (+ ou -) importa: na fita negativa são lidos da direita para a esquerda nas coordenadas genômicas, então a posição 43125483 é a extremidade 5' do BRCA1.

Entender arquivos GTF/GFF3 é pré-requisito para: , ChIP-seq, anotação de , design de guias CRISPR e a maior parte do trabalho em genome browsers.

Por Que a Estrutura Gênica Importa para a Bioinformática

Quase toda análise de bioinformática envolve limites de em algum nível:

Anotação de : este SNP está em um codificante? Em um sítio de ? Em uma UTR? O impacto funcional depende inteiramente de onde ele cai na estrutura do .
: são contados por , por , às vezes por . A análise em nível de isoforma requer conhecimento dos limites -.
ChIP-seq: onde um está se ligando em relação aos de próximos?
Design de CRISPR: guias próximos a um sítio de podem interromper o mesmo que não atinjam a sequência codificante diretamente.

O não é apenas um rótulo ou um nome. É uma unidade precisa e estruturada com lógica regulatória, organização interna e saídas definidas. Tratá-lo como uma simples posição em um perde a maior parte da biologia.

⟷DECODER

Biology

Um gene é um segmento discreto de DNA que codifica um produto funcional — geralmente uma proteína, às vezes um RNA. Os genes incluem não apenas a sequência codificante, mas regiões regulatórias (promotor, enhancers) que controlam quando e onde a expressão ocorre.

{ } For Developers

Um gene é uma definição de função com sua própria configuração: o promotor é a assinatura da função e o modificador de acesso, enhancers são feature flags que alteram a expressão em contextos específicos, a sequência codificante é o corpo da função, e os íntrons são comentários inline removidos antes da execução. O genoma é uma base de código com ~20.000 dessas funções.

LAB · Estrutura de um Gene

Python · Pyodide