No capítulo anterior, estabelecemos que o é uma string de ~3 bilhões de caracteres. Mas uma string sozinha não é um programa. Um programa precisa de estrutura: unidades definidas com nomes, entradas, saídas e regras para quando executar. Na biologia, essa estrutura é fornecida pelos .
Um é a unidade fundamental de informação biológica — um trecho de com contexto regulatório suficiente para ser seletivamente lido, convertido em e (geralmente) em . Entender a estrutura dos é essencial porque toda ferramenta de bioinformática que trabalha com — chamadores de , pipelines de , software de anotação — raciocina sobre coordenadas de , limites de , sítios de e regiões regulatórias.
O Que um Gene Realmente É
Aqui está uma definição que resistirá melhor do que a versão casual: um é uma unidade hereditária de sequência que pode ser transcrita em , onde essa é controlada por elementos regulatórios associados.
Note o que está faltando nessa definição: "codifica uma ". Cerca de 1,5% do humano codifica , mas aproximadamente 80% é em em algum momento. Muitos desses RNAs não codificantes têm funções regulatórias importantes. Um que produz apenas não codificante ainda é um .
A definição de "" foi revisada várias vezes desde que o termo foi cunhado em 1909. A genética precoce definia por seus efeitos fenotípicos. A biologia molecular os redefiniu como sequências de que codificam . A genômica forçou outra revisão: alguns codificam apenas , alguns produzem múltiplas , e alguns se sobrepõem com outros em fitas opostas. A definição operacional que usamos aqui — uma unidade de com contexto regulatório — reflete o consenso de trabalho atual.
Estrutura do Gene: A Anatomia de uma Função
Um codificante de em um eucarioto tem vários componentes, cada um com um papel distinto:
O Promotor
O é uma sequência regulatória upstream do (tipicamente dentro de ~2000 pb do sítio de início de ) onde a maquinaria de se monta. Ele contém o central — sequências de reconhecimento para a polimerase — e frequentemente sequências adicionais que ligam regulatórias chamadas .
Pense no como a assinatura de uma função combinada com seu modificador de acesso. Ele define: este pode ser chamado? Em que condições? Com que entradas ()?
Os elementos clássicos do central incluem:
- Caixa TATA (~−25 a −30 do sítio de início) — sítio de ligação para TBP ( de ligação TATA), parte da maquinaria basal de
- Elemento iniciador (no sítio +1) — presente em muitos sem caixa TATA
Muitos humanos também têm ilhas CpG — regiões com alto conteúdo GC e muitos dinucleotídeos CpG que resistem à metilação em ativos. A metilação de CpG é um mecanismo epigenético chave de silenciamento, abordado no Capítulo 3.2.
Enhancers e Silenciadores
são sequências regulatórias que aumentam a quando ligadas por específicos. Podem estar localizados a milhares ou até centenas de milhares de pares de do que regulam — dobrando-se no espaço 3D para contatar o .
Silenciadores funcionam de forma semelhante, mas diminuem a .
Um é como uma variável de ambiente passada a um processo de build. O do é o script de build — ele roda, mas o que ele faz depende de quais variáveis de ambiente estão definidas. Um específico do fígado que liga HNF4α (um hepático) ativará apenas em hepáticas porque apenas hepáticas têm HNF4α disponível. O mesmo em um , sem esse , permanece silente.
Éxons e Íntrons
Quando um codificante de é , a cópia completa de — chamada de pré- — inclui tanto as sequências codificantes quanto as sequências não codificantes intermediárias:
- — sequências que acabam no maduro (a palavra "" = "expresso")
- — sequências removidas por antes que o saia do núcleo ("" = "interveniente")
Após a , um processo chamado de remove os e une os . O resultado é um maduro com apenas as sequências codificantes e regulatórias necessárias para a .
O médio codificante de humanas tem ~9 e ~8 . Os têm em média ~200 pb; os têm em média ~3.500 pb. A sequência codificante real (a janela de aberta, ou ORF) é tipicamente muito menor do que a extensão total do , que pode se estender por 100 kb ou mais de genômico.
Os parecem superficialmente como comentários ou código morto — sequências presentes no mas removidas antes da execução. Mas ao contrário do código comentado, os não são inertes. Muitos contêm elementos regulatórios: sinais de sítio de , RNAs regulatórios e até pequenos inteiros. A maquinaria de que os remove também é alvo de regulação do , que pode mudar completamente o produto proteico.
Sítios de Splicing
Os limites entre e são definidos por sequências consenso de sítio de . O sítio de 5' (limite |) tipicamente começa com GT (GU no ); o sítio de 3' (limite |) termina com AG. A frase "regra GT-AG" é um mnemônico útil.
Dentro do , uma sequência de ponto de ramificação (~20–50 pb upstream do sítio de 3') forma uma estrutura em laço durante o . O spliceossomo — um grande complexo - — catalisa a reação.
nos sítios de são uma classe importante de patogênicas. Uma única mudança nucleotídica no GT ou AG pode causar skipping de (o fica incluído no e é removido), retenção de (o acaba no ) ou ativação de sítio de críptico. Todos esses alteram ou destroem o produto proteico.
A Sequência Codificante (CDS) e a Janela de Leitura Aberta
A sequência codificante (CDS) é a porção do maduro que é traduzida em . Começa com um códon de início (AUG, codificando metionina) e termina com um códon de parada (UAA, UAG ou UGA).
A CDS está embutida no entre UTRs — regiões não traduzidas:
- 5' UTR — entre o cap e o códon de início; contém sítios de ligação ao ribossomo e elementos regulatórios
- 3' UTR — entre o códon de parada e a cauda poli-A; contém sequências regulatórias que influenciam a estabilidade do , a eficiência de e a localização subcelular
A 3' UTR é um hub importante para regulação pós-transcricional. Ela contém sítios de ligação para microRNAs — pequenos RNAs não codificantes que visam mRNAs para degradação ou silenciamento traducional. Mais de 60% dos codificantes de humanas são regulados por microRNAs. Ao analisar diferencial, ou na UTR que afetam sítios de ligação de microRNA podem ter grandes efeitos fenotípicos mesmo que não alterem a sequência de .
A Tabela de Códons: Uma Lookup Table para Tradução
O código genético mapeia tripletos de de (códons) para . Há 4³ = 64 possíveis códons e 20 , então a maioria dos é codificada por múltiplos códons — isso é chamado de degenerescência ou redundância.
O código é:
- Universal — quase idêntico em toda a vida (com pequenas exceções em algumas mitocôndrias e organismos)
- Degenerado — múltiplos códons mapeiam para o mesmo (por exemplo,
GCU,GCC,GCA,GCGtodos codificam alanina) - Não sobreposto — cada pertence a exatamente um códon
- Sem vírgulas — sem delimitadores entre códons; a janela de é estabelecida pelo códon de início
A degenerescência não é aleatória. Códons sinônimos (codificando o mesmo ) frequentemente diferem apenas na terceira posição — a posição de "wobble". Isso torna o código mais robusto a pontuais: uma mudança na terceira posição do códon frequentemente não muda o .
Pseudogenes e Famílias Gênicas
Nem tudo que parece um é funcional. Pseudogenes são sequências que se assemelham a , mas perderam função por . Surgem quando um é duplicado e uma cópia acumula inativadoras.
Mais produtivamente, a duplicação gênica é o mecanismo primário para evoluir novas funções gênicas. O humano contém muitas famílias gênicas — grupos de relacionados que surgiram por duplicação e divergência. Os da hemoglobina (HBA1, HBA2, HBB, HBD, etc.) são um exemplo clássico: todos relacionados, todos codificando transportadoras de oxigênio, mas com padrões de expressão diferentes e afinidades de oxigênio ajustadas ao estágio de desenvolvimento e tipo de tecido.
Lendo um Arquivo de Anotação Gênica
Na prática, os são descritos em arquivos de anotação — arquivos GTF ( Transfer Format) ou GFF3 que listam coordenadas genômicas para cada feature. Toda análise de começa mapeando a um de referência e contando por , o que requer um arquivo de anotação gênica.
Um registro GTF se parece com isto:
chr17 HAVANA gene 43044295 43125483 . - . gene_id "ENSG00000012048"; gene_name "BRCA1";
chr17 HAVANA transcript 43044295 43125483 . - . gene_id "ENSG00000012048"; transcript_id "ENST00000357654";
chr17 HAVANA exon 43124017 43125483 . - . gene_id "ENSG00000012048"; exon_number "1";
chr17 HAVANA CDS 43124017 43125364 . - . gene_id "ENSG00000012048"; protein_id "ENSP00000350283";
Campos: , fonte, tipo de feature, início, fim, pontuação, fita, frame, atributos.
As coordenadas são baseadas em 1 e meio-abertas. A fita (+ ou -) importa: na fita negativa são lidos da direita para a esquerda nas coordenadas genômicas, então a posição 43125483 é a extremidade 5' do BRCA1.
Entender arquivos GTF/GFF3 é pré-requisito para: , ChIP-seq, anotação de , design de guias CRISPR e a maior parte do trabalho em genome browsers.
Por Que a Estrutura Gênica Importa para a Bioinformática
Quase toda análise de bioinformática envolve limites de em algum nível:
- Anotação de : este SNP está em um codificante? Em um sítio de ? Em uma UTR? O impacto funcional depende inteiramente de onde ele cai na estrutura do .
- : são contados por , por , às vezes por . A análise em nível de isoforma requer conhecimento dos limites -.
- ChIP-seq: onde um está se ligando em relação aos de próximos?
- Design de CRISPR: guias próximos a um sítio de podem interromper o mesmo que não atinjam a sequência codificante diretamente.
O não é apenas um rótulo ou um nome. É uma unidade precisa e estruturada com lógica regulatória, organização interna e saídas definidas. Tratá-lo como uma simples posição em um perde a maior parte da biologia.
Um gene é um segmento discreto de DNA que codifica um produto funcional — geralmente uma proteína, às vezes um RNA. Os genes incluem não apenas a sequência codificante, mas regiões regulatórias (promotor, enhancers) que controlam quando e onde a expressão ocorre.
Um gene é uma definição de função com sua própria configuração: o promotor é a assinatura da função e o modificador de acesso, enhancers são feature flags que alteram a expressão em contextos específicos, a sequência codificante é o corpo da função, e os íntrons são comentários inline removidos antes da execução. O genoma é uma base de código com ~20.000 dessas funções.