Parte 3·3.1·14 min de leitura

Expressão Gênica

A expressão gênica é o processo pelo qual a informação genética se torna saída funcional — controlada por fatores de transcrição, promotores e uma arquitetura regulatória em camadas.

expressão gênicafatores de transcriçãoregulação
Gene expression: TF binding → transcription → mRNA

O humano contém aproximadamente 20.000 codificantes de . Cada do seu corpo carrega todos eles. Uma hepática e um têm idêntico. No entanto, eles têm aparência diferente, se comportam de forma diferente, produzem diferentes e têm propriedades funcionais dramaticamente distintas.

A diferença é a — quais estão ligados, em que níveis e em resposta a quais sinais. A não é um interruptor binário; é um processo contínuo e dinamicamente regulado que determina a identidade celular, media as respostas celulares ao ambiente e é a do desenvolvimento de um único ovo fertilizado a um organismo de um trilhão de .

O Que "Expressão" Significa

Quando dizemos que um está "expresso," queremos dizer que está sendo ativamente em e (para codificantes de ) que esse está sendo em . Quando dizemos que um está "regulado positivamente," queremos dizer que está produzindo mais e/ou do que o valor basal. "Regulado negativamente" significa menos.

Na prática, porque o mede a abundância de como proxy, "" em bioinformática geralmente se refere especificamente ao nível de . Esta é uma aproximação útil, mas não perfeita — os níveis de nem sempre refletem os níveis de .

Fatores de Transcrição: Os Integradores de Sinal

O mecanismo primário para controlar quais são expressos são os (TFs) que ligam sequências específicas de e regulam a atividade da polimerase.

Os TFs funcionam ligando-se a sequências regulatórias em e de . Quando um TF se liga próximo a um , ele pode:

  • Recrutar a maquinaria geral de (ativadores)
  • Bloquear o recrutamento da polimerase (repressores)
  • Estabilizar ou desestabilizar nucleossomos (remodeladores de cromatina)
  • Recrutar modificadoras de histonas
{ }Fatores de transcrição como configuração de build específica de ambiente

Imagine seu como um monorepo com 20.000 módulos. Cada módulo tem uma configuração de build que especifica: "construa este módulo se ENV_FÍGADO estiver definido E NÃO ENV_NEURÔNIO E ENV_OXIGÊNIO > 0,2." Os são as variáveis de ambiente. O repertório atual de TFs da determina quais configurações avaliam como verdadeiras e, portanto, quais são construídos.

O insight fundamental: os TFs são em si codificadas por . O sistema regulatório é regulado pelo mesmo mecanismo.

O humano codifica aproximadamente 1.600 — cerca de 8% de todos os codificantes de . Muitos TFs funcionam em combinações: o código combinatório de TFs presentes determina o perfil de . Um específico do fígado pode exigir a ligação simultânea de HNF4α, FOXA2 e C/EBPα ao seu . Individualmente, nenhum deles é suficiente.

Arquitetura do Promotor

O de um não é um simples interruptor liga/desliga. É um elemento regulatório com múltiplos módulos funcionais:

Promotor Central

A região mínima suficiente para o início da . Contém a caixa TATA (TATAAA, ~−30 do início), o elemento iniciador (Inr, no sítio +1) e/ou um elemento downstream (DPE, ~+30). Esses elementos posicionam e orientam a polimerase II.

Cerca de 20–30% dos humanos contêm uma caixa TATA. A maioria usa o Inr ou outros elementos. "sem TATA" são comuns para housekeeping e frequentemente contêm ilhas CpG.

Promotor Proximal

Região de ~200 bp upstream do sítio de início contendo sítios de ligação de TF específicos que ajustam a atividade transcricional. Elementos comuns incluem caixas GC (ligam SP1), caixas CAAT e sítios de ligação de fatores de resposta ao cAMP (CRE).

Enhancers: Controle de Longo Alcance

são elementos regulatórios que podem funcionar a grandes distâncias do que controlam — às vezes centenas de kilobases de distância — dobrando-se através do espaço 3D para contatar o do .

Os são definidos por:

  • Sítios de ligação de TF (sequência)
  • Acessibilidade à cromatina (ATAC-seq open peaks)
  • Modificações de histonas: H3K27ac ( ativos), H3K4me1 ( poised)
  • Marcação de não codificante ( ou eRNA)

O loop 3D entre um e seu alvo é mediado por complexos proteicos incluindo o complexo Mediador e cohesinas. Essa organização 3D do é detectável por técnicas como Hi-C (captura de conformação de cromatina).

Sinalização para Transcrição

Muitos TFs são eles próprios regulados por . Quando um fator de crescimento se liga a seu na superfície celular, desencadeia uma cascata que pode:

  • Ativar uma quinase que fosforila um TF, mudando sua localização ou atividade
  • Liberar um TF inibido de um complexo repressivo
  • Induzir a síntese de novos TFs imediata precoce

O ciclo: sinal extracelular → de → sinalização intracelular → TF modificado → mudança na → resposta celular. Cada etapa amplifica e integra informações.

RNA-seq: Medindo a Expressão em Escala

O () mede a abundância de de todo o transcriptoma em um único experimento. O fluxo de trabalho básico:

Células ou tecido
↓ Extrair RNA total
↓ Selecionar mRNA (via esferas poli-A) ou deplecionar rRNA
↓ Fragmentar RNA → síntese de cDNA → adicionar adaptadores sequenciamento
↓ Sequenciamento de extremidade emparelhada (150 pb cada extremidade)
↓ Controle de qualidade (FastQC)
↓ Aparamento (Trimmomatic, Cutadapt)
↓ Alinhamento ao genoma de referência (STAR, HISAT2)
↓ Contagem de reads por gene (HTSeq, featureCounts)
↓ Normalização (DESeq2, edgeR, limma-voom)
↓ Expressão diferencial / análise downstream

A saída é uma matriz de contagem: × amostras, onde cada valor é o número de mapeados para aquele naquela amostra.

Normalização: Tornando as Amostras Comparáveis

A contagem bruta de não é diretamente comparável entre amostras porque diferentes amostras têm profundidades de diferentes. Métodos de normalização comuns:

CPM (Contagens Por Milhão): divide pelo total de da amostra, multiplica por 10⁶. Corrige a profundidade de . Não corrige comprimento do .

TPM ( Por Milhão): normaliza pelo comprimento do e depois pela profundidade de . Soma TPM de todas as amostras é sempre 10⁶ — permite comparação direta entre amostras.

VST/rlog (DESeq2): transformações estabilizadoras de variância — log-transformam os dados de forma que com baixa contagem não dominem a variância. Melhor para e visualização.

Qual normalização usar
  • Para visualização e comparação entre amostras → TPM
  • Para com DESeq2 ou edgeR → use contagens brutas (as ferramentas fazem sua própria normalização)
  • Para e controle de qualidade → VST ou rlog do DESeq2
  • Nunca use RPKM/FPKM para comparação entre amostras — matematicamente inconsistente

Expressão Específica de Tipo Celular

Cada tipo celular possui um perfil de expressão único. Bancos de dados como:

  • GTEx: expressão de >50 tecidos humanos de ~1000 doadores
  • Human Cell Atlas: transcriptômica de única de dezenas de tecidos
  • ENCODE: dados de TF e cromatina em >1000 linhagens celulares

permitem comparar padrões de expressão entre tecidos e identificar específicos de tecido. específicos de tecido são candidatos a biomarcadores de diagnóstico (sua presença no sangue indica dano ao tecido de origem).

Análise de Enriquecimento de Vias

Depois de identificar , o próximo passo é entender quais processos biológicos são afetados. A GSEA (Análise de Enriquecimento de Conjunto de ) testa se um conjunto predefinido de (uma , um processo biológico) está enriquecido na parte superior ou inferior de uma lista de classificados por mudança de expressão.

Diferentemente de ORA (análise de super-representação), que usa apenas os significativos, a GSEA usa todos os classificados — detecta enriquecimento sutil em toda a mesmo quando nenhum único passa no limiar de significância.

Ferramentas: GSEApy (Python), fgsea (R), Enrichr (web), clusterProfiler (R).

DECODER
Biology

A expressão gênica é o processo pelo qual a informação codificada em um gene é usada para produzir um produto funcional. Diferentes tipos celulares expressam diferentes subconjuntos dos ~20.000 genes humanos, produzindo proteomas radicalmente diferentes a partir do mesmo genoma.

{ } For Developers

Expressão gênica é feature flagging no nível molecular. Cada célula tem a base de código completa, mas executa apenas certos módulos. Fatores de transcrição são a configuração de runtime que determina quais genes são carregados. O estado da cromatina é a camada de controle de acesso — DNA firmemente empacotado é protegido contra leitura. O resultado: células hepáticas e neurônios compartilham 100% de seu código-fonte, mas se comportam como aplicações completamente diferentes.

Por Que a Expressão Gênica É Central para a Bioinformática

Praticamente toda análise de bioinformática está ligada à :

  • Estudos GWAS identificam ; os próximos são candidatos de expressão
  • Dados de única revelam heterogeneidade que as médias em massa escondem
  • Biomarcadores clínicos frequentemente são na doença vs. normal
  • Alvos de fármacos precisam ser expressos no tecido relevante
  • O desenvolvimento e a diferenciação são programas de de inteira

A é o elo entre sequência de e celular.