O humano contém aproximadamente 20.000 codificantes de . Cada do seu corpo carrega todos eles. Uma hepática e um têm idêntico. No entanto, eles têm aparência diferente, se comportam de forma diferente, produzem diferentes e têm propriedades funcionais dramaticamente distintas.
A diferença é a — quais estão ligados, em que níveis e em resposta a quais sinais. A não é um interruptor binário; é um processo contínuo e dinamicamente regulado que determina a identidade celular, media as respostas celulares ao ambiente e é a do desenvolvimento de um único ovo fertilizado a um organismo de um trilhão de .
O Que "Expressão" Significa
Quando dizemos que um está "expresso," queremos dizer que está sendo ativamente em e (para codificantes de ) que esse está sendo em . Quando dizemos que um está "regulado positivamente," queremos dizer que está produzindo mais e/ou do que o valor basal. "Regulado negativamente" significa menos.
Na prática, porque o mede a abundância de como proxy, "" em bioinformática geralmente se refere especificamente ao nível de . Esta é uma aproximação útil, mas não perfeita — os níveis de nem sempre refletem os níveis de .
Fatores de Transcrição: Os Integradores de Sinal
O mecanismo primário para controlar quais são expressos são os (TFs) — que ligam sequências específicas de e regulam a atividade da polimerase.
Os TFs funcionam ligando-se a sequências regulatórias em e de . Quando um TF se liga próximo a um , ele pode:
- Recrutar a maquinaria geral de (ativadores)
- Bloquear o recrutamento da polimerase (repressores)
- Estabilizar ou desestabilizar nucleossomos (remodeladores de cromatina)
- Recrutar modificadoras de histonas
Imagine seu como um monorepo com 20.000 módulos. Cada módulo tem uma configuração de build que especifica: "construa este módulo se ENV_FÍGADO estiver definido E NÃO ENV_NEURÔNIO E ENV_OXIGÊNIO > 0,2." Os são as variáveis de ambiente. O repertório atual de TFs da determina quais configurações avaliam como verdadeiras e, portanto, quais são construídos.
O insight fundamental: os TFs são em si codificadas por . O sistema regulatório é regulado pelo mesmo mecanismo.
O humano codifica aproximadamente 1.600 — cerca de 8% de todos os codificantes de . Muitos TFs funcionam em combinações: o código combinatório de TFs presentes determina o perfil de . Um específico do fígado pode exigir a ligação simultânea de HNF4α, FOXA2 e C/EBPα ao seu . Individualmente, nenhum deles é suficiente.
Arquitetura do Promotor
O de um não é um simples interruptor liga/desliga. É um elemento regulatório com múltiplos módulos funcionais:
Promotor Central
A região mínima suficiente para o início da . Contém a caixa TATA (TATAAA, ~−30 do início), o elemento iniciador (Inr, no sítio +1) e/ou um elemento downstream (DPE, ~+30). Esses elementos posicionam e orientam a polimerase II.
Cerca de 20–30% dos humanos contêm uma caixa TATA. A maioria usa o Inr ou outros elementos. "sem TATA" são comuns para housekeeping e frequentemente contêm ilhas CpG.
Promotor Proximal
Região de ~200 bp upstream do sítio de início contendo sítios de ligação de TF específicos que ajustam a atividade transcricional. Elementos comuns incluem caixas GC (ligam SP1), caixas CAAT e sítios de ligação de fatores de resposta ao cAMP (CRE).
Enhancers: Controle de Longo Alcance
são elementos regulatórios que podem funcionar a grandes distâncias do que controlam — às vezes centenas de kilobases de distância — dobrando-se através do espaço 3D para contatar o do .
Os são definidos por:
- Sítios de ligação de TF (sequência)
- Acessibilidade à cromatina (ATAC-seq open peaks)
- Modificações de histonas: H3K27ac ( ativos), H3K4me1 ( poised)
- Marcação de não codificante ( ou eRNA)
O loop 3D entre um e seu alvo é mediado por complexos proteicos incluindo o complexo Mediador e cohesinas. Essa organização 3D do é detectável por técnicas como Hi-C (captura de conformação de cromatina).
Sinalização para Transcrição
Muitos TFs são eles próprios regulados por . Quando um fator de crescimento se liga a seu na superfície celular, desencadeia uma cascata que pode:
- Ativar uma quinase que fosforila um TF, mudando sua localização ou atividade
- Liberar um TF inibido de um complexo repressivo
- Induzir a síntese de novos TFs imediata precoce
O ciclo: sinal extracelular → de → sinalização intracelular → TF modificado → mudança na → resposta celular. Cada etapa amplifica e integra informações.
RNA-seq: Medindo a Expressão em Escala
O () mede a abundância de de todo o transcriptoma em um único experimento. O fluxo de trabalho básico:
Células ou tecido
↓ Extrair RNA total
↓ Selecionar mRNA (via esferas poli-A) ou deplecionar rRNA
↓ Fragmentar RNA → síntese de cDNA → adicionar adaptadores sequenciamento
↓ Sequenciamento de extremidade emparelhada (150 pb cada extremidade)
↓ Controle de qualidade (FastQC)
↓ Aparamento (Trimmomatic, Cutadapt)
↓ Alinhamento ao genoma de referência (STAR, HISAT2)
↓ Contagem de reads por gene (HTSeq, featureCounts)
↓ Normalização (DESeq2, edgeR, limma-voom)
↓ Expressão diferencial / análise downstream
A saída é uma matriz de contagem: × amostras, onde cada valor é o número de mapeados para aquele naquela amostra.
Normalização: Tornando as Amostras Comparáveis
A contagem bruta de não é diretamente comparável entre amostras porque diferentes amostras têm profundidades de diferentes. Métodos de normalização comuns:
CPM (Contagens Por Milhão): divide pelo total de da amostra, multiplica por 10⁶. Corrige a profundidade de . Não corrige comprimento do .
TPM ( Por Milhão): normaliza pelo comprimento do e depois pela profundidade de . Soma TPM de todas as amostras é sempre 10⁶ — permite comparação direta entre amostras.
VST/rlog (DESeq2): transformações estabilizadoras de variância — log-transformam os dados de forma que com baixa contagem não dominem a variância. Melhor para e visualização.
- Para visualização e comparação entre amostras → TPM
- Para com DESeq2 ou edgeR → use contagens brutas (as ferramentas fazem sua própria normalização)
- Para e controle de qualidade → VST ou rlog do DESeq2
- Nunca use RPKM/FPKM para comparação entre amostras — matematicamente inconsistente
Expressão Específica de Tipo Celular
Cada tipo celular possui um perfil de expressão único. Bancos de dados como:
- GTEx: expressão de >50 tecidos humanos de ~1000 doadores
- Human Cell Atlas: transcriptômica de única de dezenas de tecidos
- ENCODE: dados de TF e cromatina em >1000 linhagens celulares
permitem comparar padrões de expressão entre tecidos e identificar específicos de tecido. específicos de tecido são candidatos a biomarcadores de diagnóstico (sua presença no sangue indica dano ao tecido de origem).
Análise de Enriquecimento de Vias
Depois de identificar , o próximo passo é entender quais processos biológicos são afetados. A GSEA (Análise de Enriquecimento de Conjunto de ) testa se um conjunto predefinido de (uma , um processo biológico) está enriquecido na parte superior ou inferior de uma lista de classificados por mudança de expressão.
Diferentemente de ORA (análise de super-representação), que usa apenas os significativos, a GSEA usa todos os classificados — detecta enriquecimento sutil em toda a mesmo quando nenhum único passa no limiar de significância.
Ferramentas: GSEApy (Python), fgsea (R), Enrichr (web), clusterProfiler (R).
A expressão gênica é o processo pelo qual a informação codificada em um gene é usada para produzir um produto funcional. Diferentes tipos celulares expressam diferentes subconjuntos dos ~20.000 genes humanos, produzindo proteomas radicalmente diferentes a partir do mesmo genoma.
Expressão gênica é feature flagging no nível molecular. Cada célula tem a base de código completa, mas executa apenas certos módulos. Fatores de transcrição são a configuração de runtime que determina quais genes são carregados. O estado da cromatina é a camada de controle de acesso — DNA firmemente empacotado é protegido contra leitura. O resultado: células hepáticas e neurônios compartilham 100% de seu código-fonte, mas se comportam como aplicações completamente diferentes.
Por Que a Expressão Gênica É Central para a Bioinformática
Praticamente toda análise de bioinformática está ligada à :
- Estudos GWAS identificam ; os próximos são candidatos de expressão
- Dados de única revelam heterogeneidade que as médias em massa escondem
- Biomarcadores clínicos frequentemente são na doença vs. normal
- Alvos de fármacos precisam ser expressos no tecido relevante
- O desenvolvimento e a diferenciação são programas de de inteira
A é o elo entre sequência de e celular.