Expressão Gênica

Gene expression: TF binding → transcription → mRNA

O humano contém aproximadamente 20.000 codificantes de . Cada do seu corpo carrega todos eles. Uma hepática e um têm idêntico. No entanto, eles têm aparência diferente, se comportam de forma diferente, produzem diferentes e têm propriedades funcionais dramaticamente distintas.

A diferença é a — quais estão ligados, em que níveis e em resposta a quais sinais. A não é um interruptor binário; é um processo contínuo e dinamicamente regulado que determina a identidade celular, media as respostas celulares ao ambiente e é a do desenvolvimento de um único ovo fertilizado a um organismo de um trilhão de .

O Que "Expressão" Significa

Quando dizemos que um está "expresso," queremos dizer que está sendo ativamente em e (para codificantes de ) que esse está sendo em . Quando dizemos que um está "regulado positivamente," queremos dizer que está produzindo mais e/ou do que o valor basal. "Regulado negativamente" significa menos.

Na prática, porque o mede a abundância de como proxy, "" em bioinformática geralmente se refere especificamente ao nível de . Esta é uma aproximação útil, mas não perfeita — os níveis de nem sempre refletem os níveis de .

Fatores de Transcrição: Os Integradores de Sinal

O mecanismo primário para controlar quais são expressos são os (TFs) — que ligam sequências específicas de e regulam a atividade da polimerase.

Os TFs funcionam ligando-se a sequências regulatórias em e de . Quando um TF se liga próximo a um , ele pode:

Recrutar a maquinaria geral de (ativadores)
Bloquear o recrutamento da polimerase (repressores)
Estabilizar ou desestabilizar nucleossomos (remodeladores de cromatina)
Recrutar modificadoras de histonas

{ }Fatores de transcrição como configuração de build específica de ambiente

Imagine seu como um monorepo com 20.000 módulos. Cada módulo tem uma configuração de build que especifica: "construa este módulo se ENV_FÍGADO estiver definido E NÃO ENV_NEURÔNIO E ENV_OXIGÊNIO > 0,2." Os são as variáveis de ambiente. O repertório atual de TFs da determina quais configurações avaliam como verdadeiras e, portanto, quais são construídos.

O insight fundamental: os TFs são em si codificadas por . O sistema regulatório é regulado pelo mesmo mecanismo.

O humano codifica aproximadamente 1.600 — cerca de 8% de todos os codificantes de . Muitos TFs funcionam em combinações: o código combinatório de TFs presentes determina o perfil de . Um específico do fígado pode exigir a ligação simultânea de HNF4α, FOXA2 e C/EBPα ao seu . Individualmente, nenhum deles é suficiente.

Arquitetura do Promotor

O de um não é um simples interruptor liga/desliga. É um elemento regulatório com múltiplos módulos funcionais:

Promotor Central

A região mínima suficiente para o início da . Contém a caixa TATA (TATAAA, ~−30 do início), o elemento iniciador (Inr, no sítio +1) e/ou um elemento downstream (DPE, ~+30). Esses elementos posicionam e orientam a polimerase II.

Cerca de 20–30% dos humanos contêm uma caixa TATA. A maioria usa o Inr ou outros elementos. "sem TATA" são comuns para housekeeping e frequentemente contêm ilhas CpG.

Promotor Proximal

Região de ~200 bp upstream do sítio de início contendo sítios de ligação de TF específicos que ajustam a atividade transcricional. Elementos comuns incluem caixas GC (ligam SP1), caixas CAAT e sítios de ligação de fatores de resposta ao cAMP (CRE).

Enhancers: Controle de Longo Alcance

são elementos regulatórios que podem funcionar a grandes distâncias do que controlam — às vezes centenas de kilobases de distância — dobrando-se através do espaço 3D para contatar o do .

Os são definidos por:

Sítios de ligação de TF (sequência)
Acessibilidade à cromatina (ATAC-seq open peaks)
Modificações de histonas: H3K27ac ( ativos), H3K4me1 ( poised)
Marcação de não codificante ( ou eRNA)

O loop 3D entre um e seu alvo é mediado por complexos proteicos incluindo o complexo Mediador e cohesinas. Essa organização 3D do é detectável por técnicas como Hi-C (captura de conformação de cromatina).

Sinalização para Transcrição

Muitos TFs são eles próprios regulados por . Quando um fator de crescimento se liga a seu na superfície celular, desencadeia uma cascata que pode:

Ativar uma quinase que fosforila um TF, mudando sua localização ou atividade
Liberar um TF inibido de um complexo repressivo
Induzir a síntese de novos TFs imediata precoce

O ciclo: sinal extracelular → de → sinalização intracelular → TF modificado → mudança na → resposta celular. Cada etapa amplifica e integra informações.

RNA-seq: Medindo a Expressão em Escala

O () mede a abundância de de todo o transcriptoma em um único experimento. O fluxo de trabalho básico:

Células ou tecido
↓ Extrair RNA total
↓ Selecionar mRNA (via esferas poli-A) ou deplecionar rRNA
↓ Fragmentar RNA → síntese de cDNA → adicionar adaptadores sequenciamento
↓ Sequenciamento de extremidade emparelhada (150 pb cada extremidade)
↓ Controle de qualidade (FastQC)
↓ Aparamento (Trimmomatic, Cutadapt)
↓ Alinhamento ao genoma de referência (STAR, HISAT2)
↓ Contagem de reads por gene (HTSeq, featureCounts)
↓ Normalização (DESeq2, edgeR, limma-voom)
↓ Expressão diferencial / análise downstream

A saída é uma matriz de contagem: × amostras, onde cada valor é o número de mapeados para aquele naquela amostra.

Normalização: Tornando as Amostras Comparáveis

A contagem bruta de não é diretamente comparável entre amostras porque diferentes amostras têm profundidades de diferentes. Métodos de normalização comuns:

CPM (Contagens Por Milhão): divide pelo total de da amostra, multiplica por 10⁶. Corrige a profundidade de . Não corrige comprimento do .

TPM ( Por Milhão): normaliza pelo comprimento do e depois pela profundidade de . Soma TPM de todas as amostras é sempre 10⁶ — permite comparação direta entre amostras.

VST/rlog (DESeq2): transformações estabilizadoras de variância — log-transformam os dados de forma que com baixa contagem não dominem a variância. Melhor para e visualização.

ℹQual normalização usar

Para visualização e comparação entre amostras → TPM
Para com DESeq2 ou edgeR → use contagens brutas (as ferramentas fazem sua própria normalização)
Para e controle de qualidade → VST ou rlog do DESeq2
Nunca use RPKM/FPKM para comparação entre amostras — matematicamente inconsistente

Expressão Específica de Tipo Celular

Cada tipo celular possui um perfil de expressão único. Bancos de dados como:

GTEx: expressão de >50 tecidos humanos de ~1000 doadores
Human Cell Atlas: transcriptômica de única de dezenas de tecidos
ENCODE: dados de TF e cromatina em >1000 linhagens celulares

permitem comparar padrões de expressão entre tecidos e identificar específicos de tecido. específicos de tecido são candidatos a biomarcadores de diagnóstico (sua presença no sangue indica dano ao tecido de origem).

Análise de Enriquecimento de Vias

Depois de identificar , o próximo passo é entender quais processos biológicos são afetados. A GSEA (Análise de Enriquecimento de Conjunto de ) testa se um conjunto predefinido de (uma , um processo biológico) está enriquecido na parte superior ou inferior de uma lista de classificados por mudança de expressão.

Diferentemente de ORA (análise de super-representação), que usa apenas os significativos, a GSEA usa todos os classificados — detecta enriquecimento sutil em toda a mesmo quando nenhum único passa no limiar de significância.

Ferramentas: GSEApy (Python), fgsea (R), Enrichr (web), clusterProfiler (R).

⟷DECODER

Biology

A expressão gênica é o processo pelo qual a informação codificada em um gene é usada para produzir um produto funcional. Diferentes tipos celulares expressam diferentes subconjuntos dos ~20.000 genes humanos, produzindo proteomas radicalmente diferentes a partir do mesmo genoma.

{ } For Developers

Expressão gênica é feature flagging no nível molecular. Cada célula tem a base de código completa, mas executa apenas certos módulos. Fatores de transcrição são a configuração de runtime que determina quais genes são carregados. O estado da cromatina é a camada de controle de acesso — DNA firmemente empacotado é protegido contra leitura. O resultado: células hepáticas e neurônios compartilham 100% de seu código-fonte, mas se comportam como aplicações completamente diferentes.

Por Que a Expressão Gênica É Central para a Bioinformática

Praticamente toda análise de bioinformática está ligada à :

Estudos GWAS identificam ; os próximos são candidatos de expressão
Dados de única revelam heterogeneidade que as médias em massa escondem
Biomarcadores clínicos frequentemente são na doença vs. normal
Alvos de fármacos precisam ser expressos no tecido relevante
O desenvolvimento e a diferenciação são programas de de inteira

A é o elo entre sequência de e celular.