Parte 3·3.4·16 min de leitura

Redes Regulatórias Gênicas

Os fatores de transcrição formam redes que controlam a identidade celular e as respostas — grafos direcionados com motivos recorrentes, reguladores mestres e comportamento emergente.

redes regulatórias gênicasfatores de transcriçãoredesbiologia de sistemas

Genes não são regulados isoladamente. Os fatores de transcrição ativam outros fatores de transcrição, que ativam outros ainda, enquanto alguns reprimem seus próprios ativadores. O resultado é uma rede regulatória gênica (GRN) — um grafo direcionado onde os nós são genes (especificamente TFs e seus alvos) e as bordas representam relações regulatórias.

Entender as GRNs é entender como as células tomam decisões: se diferenciar, proliferar, responder a danos ao DNA ou morrer. É também onde a biologia de sistemas e a bioinformática convergem para fazer biologia computacional de nível de sistemas.

A Estrutura de Rede

Uma GRN pode ser representada como um grafo direcionado G = (V, E), onde:

  • V = conjunto de genes/proteínas (nós)
  • E = conjunto de relações regulatórias (bordas direcionadas)
  • Cada borda tem um sinal: + (ativação) ou − (repressão)

Diferentemente de uma rede de interação proteína-proteína (que é não direcionada, representando associação física), as GRNs são dirigidas — as bordas representam influência causal regulatória.

A escala varia: uma GRN de desenvolvimento pode ter 50–200 TFs com relações entre si e com genes alvo downstream; o interatoma regulatório completo humano compreende ~1.600 TFs e dezenas de milhares de interações.

Motivos de Rede: Os Padrões Recorrentes

Certos padrões de conectividade aparecem com muito mais frequência do que o esperado por acaso em GRNs. Esses motivos de rede representam unidades funcionais selecionadas evolutivamente:

Autorregulação

O motivo mais simples: um TF regula sua própria transcrição.

Autorregulação negativa (o TF reprime a si mesmo): a forma mais comum. Cria um sistema de feedback negativo que estabiliza a expressão — se os níveis de TF aumentam, mais repressão os traz de volta. Mais rápido para atingir o estado estacionário do que sem feedback. Encontrado em >40% dos TFs bacterianos.

Autorregulação positiva (o TF ativa a si mesmo): cria bistabilidade — uma vez ativado, permanece ativo mesmo que o sinal de ativação original desapareça. Usado para comprometer estados celulares (diferenciação, memória imunológica).

Loop de Feedforward (FFL)

X regula Y, e ambos X e Y regulam Z. Há oito tipos de FFL, dependendo dos sinais de cada borda (+ ou −). O mais comum é o FFL "coerente tipo 1" (C1-FFL): X ativa Y, e ambos X e Y ativam Z.

O C1-FFL funciona como um filtro de pulso: responde apenas a sinais sustentados de X, filtrando flutuações transitórias. Z não é ativado a menos que X persista tempo suficiente para Y se acumular. Encontrado em regulação gênica bacteriana e de leveduras e em circuitos de desenvolvimento.

Regulon de Entrada Única (SIM)

Um único TF mestre regula um conjunto de genes-alvo com nenhum outro regulador em comum. Os alvos são frequentemente agrupados funcionalmente — uma bateria de genes de choque térmico regulados por HSF1, por exemplo.

Regulon de Entrada Densa (DOR)

Múltiplos TFs regulam o mesmo conjunto de genes-alvo. Cada alvo integra entradas de vários TFs — uma porta lógica implementada por combinações de sítios de ligação de TF em seu promotor.

Reguladores Mestres: Controlando a Identidade Celular

Alguns TFs têm efeitos desproporcionalmente grandes no destino celular — eles ativam programas de expressão gênica inteiros que definem a identidade celular.

MyoD: Um único fator de transcrição. Expresso em fibroblastos, ele os reprograma em mioblastos (precursores de células musculares). MyoD ativa centenas de genes de músculo enquanto reprime genes de outros tipos celulares.

Fatores de Yamanaka (Oct4, Sox2, Klf4, c-Myc): Quatro TFs. Expressos em células somáticas, eles reprogramam as células de volta a um estado de pluripotência — células-tronco pluripotentes induzidas (iPSCs). Esse é o experimento de reprogramação que valeu o Prêmio Nobel de Fisiologia ou Medicina de 2012.

Reguladores de identidade de tipo celular estão no topo das hierarquias de GRN. Perturbá-los (por mutação, deleção ou expressão ectópica) tem efeitos de nível de sistema em toda a identidade celular.

Reconstrução de GRN: Aprendendo a Rede com Dados

Inferir quais TFs regulam quais genes a partir de dados é um problema fundamental em bioinformática:

ChIP-seq

A abordagem de referência: imunoprecipitação do TF de interesse junto com o DNA que ele está ligando, então sequenciamento para identificar sítios de ligação em todo o genoma.

Saída: coordenadas genômicas de sítios de ligação de TF (picos ChIP-seq). Atribuir esses sítios a genes alvo requer análise de proximidade (picos dentro de 10–50 kb de um promotor de gene) ou inferência de alça 3D.

Bancos de dados: ENCODE tem ~5.000 conjuntos de dados de ChIP-seq em centenas de tipos celulares. ReMap coleta dados de ligação de TF de todo o literature.

Análise de Motivos

TFs reconhecem padrões de sequência curtos de ~6–12 pb. Bancos de dados como JASPAR, HOCOMOCO e TRANSFAC contêm motivos de ligação para centenas de TFs.

Ferramentas: FIMO (busca de motivos), HOMER, MEME-suite. Dado um conjunto de regiões regulatórias de interesse (por exemplo, picos de ATAC-seq), identifique quais motivos de TF estão enriquecidos.

WGCNA: Inferência de Rede por Correlação

O Weighted Gene Co-expression Network Analysis agrupa genes com padrões de expressão similares em "módulos" — grupos de genes que variam juntos em diferentes condições ou tipos de células.

Cada módulo é representado por um eigengene (a primeira componente principal da expressão dos módulos). Relações entre eigengenes e traços externos (fenótipo, condição) identificam módulos relevantes para o processo de interesse.

Limitação: WGCNA captura correlação, não causalidade. Um módulo correlacionado com progressão tumoral pode contê-los como consequência da progressão tumoral, não como impulsionadores.

SCENIC

SCENIC (Single-Cell rEgulatory Network Inference and Clustering) combina:

  1. Regulons de TF (TF + seus alvos) identificados por análise de motivos
  2. Dados de expressão de célula única para pontuar a atividade de cada regulon em cada célula

A saída é uma matriz de atividade de regulon célula × TF, que pode ser usada para clustering e análise de trajetória com base em programas regulatórios em vez de níveis de expressão bruta.

Modelos Booleanos de GRNs

Uma abordagem simplificada e poderosa: modele cada gene como ligado (1) ou desligado (0), e cada relação regulatória como uma função lógica (AND, OR, NOT).

gene_A = (TF1 AND TF2) OR (TF3 AND NOT TF4)

Um sistema de N genes com estados booleanos tem 2^N estados possíveis. Simular a dinâmica desse sistema — como o estado muda com o tempo com base nas regras — revela atratores (estados estacionários ou ciclos) que correspondem a estados celulares biológicos (proliferação, diferenciação, apoptose).

Modelos booleanos foram usados para prever como perturbações (knockout de TF único, superexpressão) mudam o estado celular — com validação experimental.

Redes Regulatórias Oncogênicas

No câncer, as GRNs são reconfiguradas. Mutações comuns:

  • AMPLIFICAÇÃO DE TF ONCOGÊNICO: MYC amplificado em >40% dos cânceres; ativa centenas de genes de crescimento
  • DELEÇÃO DE TF SUPRESSOR DE TUMOR: TP53, RB1 — regulam negativamente a proliferação
  • FUSÃO DE TF: EWS-FLI1 no sarcoma de Ewing cria um TF quimérico com especificidade de ligação alterada

Identificar genes assinatura — alvos do TF driver que refletem sua atividade — é útil para estratificação de tumor e desenvolvimento de biomarcadores.

Por Que as GRNs Importam para a Bioinformática

  • Interpretação de GWAS: variantes em regiões não codificantes frequentemente afetam sítios de ligação de TF ou atividade de enhancer; mapear para GRNs revela o mecanismo
  • Descoberta de alvos terapêuticos: reguladores mestres ou nós de hub são alvos de medicamentos candidatos
  • Desenvolvimento de biomarcadores: a atividade de um módulo regulatório frequentemente prediz o resultado clínico melhor do que a expressão de um único gene
  • Design de reprogramação celular: a engenharia GRN instrui quais TFs superexprimir para converter um tipo celular em outro

As GRNs são onde a bioinformática de sequência encontra a biologia de sistemas: passando de "quais genes estão expressos?" para "por que eles estão expressos?" e "o que acontece se mudarmos a rede?"