Proteínas: O Executável em Runtime

Central Dogma: DNA → RNA → Protein

Se o é código-fonte e o é bytecode, as são os executáveis compilados e em execução que realmente fazem as coisas. constroem estruturas celulares, catalisam reações, transmitem sinais, regulam a , transportam moléculas e defendem contra patógenos. A é, em um sentido muito real, uma máquina de — a maior parte do que torna uma hepática diferente de um é o conjunto de que cada tipo produz e mantém.

Entender como programador significa entender três coisas: como são construídas (), como alcançam sua função (dobramento) e como essa função pode ser prevista e analisada computacionalmente (biologia estrutural e proteômica).

Tradução: Executando o mRNA

A converte a sequência de de um na sequência de de uma . Ocorre nos ribossomos — grandes complexos de rRNA e que funcionam como o ambiente de runtime da .

O ribossomo lê o em tripletos (códons) e, para cada códon, recruta o aminoacil-tRNA correspondente. O tRNA traz o correto, o ribossomo forma uma ligação peptídica entre sucessivos, e a cadeia polipeptídica em crescimento é estendida um resíduo por vez.

Os três estágios:

Iniciação

A subunidade ribossômica pequena (40S em eucariontes) se associa ao no cap 5' e varre em busca do códon de início (AUG, codificando metionina). Quando o encontra, a subunidade grande (60S) se junta, formando o ribossomo 80S completo. A iniciação requer múltiplos fatores de iniciação e hidrólise de GTP.

Elongação

O ribossomo tem três sítios:

Sítio A (aceptor): onde o aminoacil-tRNA entrante se liga
Sítio P (peptidil): onde a cadeia peptídica em crescimento é mantida
Sítio E (saída): onde o tRNA gasto sai

Cada ciclo de elongação:

Um aminoacil-tRNA com o anticódon correto se liga ao sítio A
A peptidil transferase (a ribozima de rRNA) transfere a cadeia em crescimento para o do sítio A, formando uma nova ligação peptídica
O ribossomo se transloca um códon na direção 3'→5' (movendo o peptidil-tRNA de A→P, o tRNA antigo de P→E)

Velocidade: ~15–20 /segundo em eucariontes. Uma de 300 aa leva ~20 segundos para ser sintetizada.

Terminação

Quando um códon de parada (UAA, UAG ou UGA) entra no sítio A, um fator de liberação em vez de um tRNA se liga. Isso desencadeia a hidrólise da cadeia peptídica do tRNA final, liberando o polipeptídeo completo. O ribossomo então se dissocia.

Após a liberação, o polipeptídeo recém-sintetizado é apenas uma cadeia linear de . Ele não se torna funcional até se dobrar.

Os 20 Aminoácidos: O Sistema de Tipos

As são construídas a partir de 20 canônicos, cada um definido por sua cadeia lateral (grupo R). A cadeia lateral determina o caráter químico de um :

Propriedade	Aminoácidos	Consequência funcional
Não polar/hidrofóbico	Ala, Val, Leu, Ile, Pro, Phe, Trp, Met	Impulsionam a formação do núcleo hidrofóbico
Polar, sem carga	Ser, Thr, Cys, Tyr, Asn, Gln	Ligações de hidrogênio, resíduos de sítio ativo
Carregado positivamente	Arg, Lys, His	Ligação ao DNA, pontes de sal
Carregado negativamente	Asp, Glu	Catálise, repulsão de carga
Especial	Gly (flexibilidade), Pro (rigidez, interrompe hélices)	Funções estruturais

A sequência de — a estrutura primária — contém todas as informações necessárias para dobrar na forma 3D correta. Esse é o dogma de Anfinsen, estabelecido em 1961: a estrutura nativa de uma é o mínimo termodinâmico para aquela sequência. Nenhuma instrução de montagem é necessária além da própria sequência.

Dobramento de Proteínas: Compilação de Sequência para Estrutura

À medida que a cadeia polipeptídica emerge do ribossomo, ela começa a se dobrar. O dobramento é dirigido pela termodinâmica — a busca sua conformação de energia livre mínima — mas não amostra todas as configurações possíveis (isso levaria mais do que a idade do universo). Em vez disso, o dobramento prossegue por um funil de dobramento: uma paisagem de conformações onde a energia diminui em direção ao estado nativo, guiando a cadeia eficientemente.

Estrutura Secundária

O esqueleto polipeptídico forma estruturas locais regulares estabilizadas por ligações de hidrogênio do esqueleto:

α-hélice: um espiral direito onde cada NH do esqueleto forma uma ligação de hidrogênio com o C=O do esqueleto quatro resíduos antes. Aproximadamente 1,5 Å de avanço por resíduo, 3,6 resíduos por volta. Comum em de (α-hélices transmembrana) e muitas citoplasmáticas.
Folha-β: fitas estendidas dispostas lado a lado, mantidas juntas por ligações de hidrogênio entre fitas. Pode ser paralela ou antiparalela. Encontrada em imunoglobulinas, de β-barril e fibrilas amiloides.
Alças e voltas: regiões com estrutura irregular conectando hélices e fitas. Frequentemente localizadas nas superfícies das e formam sítios de ligação e sítios ativos.

Estrutura Terciária e Quaternária

O arranjo 3D completo de todos os átomos em um único polipeptídeo é sua estrutura terciária. É estabilizada por:

Interações hidrofóbicas (resíduos não polares se agrupam no núcleo longe da água)
Ligações de hidrogênio (entre cadeias laterais e esqueleto)
Pontes dissulfeto (ligações covalentes entre cadeias laterais de cisteína — comuns em extracelulares)
Pontes de sal (entre cadeias laterais com carga oposta)

Muitas funcionais são montagens de múltiplas subunidades — estrutura quaternária. A hemoglobina é um tetrâmero (α₂β₂). O proteassomo é um complexo de 26 subunidades. O ribossomo tem >80 subunidades proteicas mais três rRNAs.

ℹAlphaFold e a revolução do dobramento de proteínas

Por 50 anos, prever a estrutura 3D a partir da sequência sozinha era considerado um dos problemas mais difíceis da ciência. Em 2020, o AlphaFold2 da DeepMind alcançou precisão quase experimental no benchmark CASP14, efetivamente resolvendo o problema para de cadeia única. O banco de dados AlphaFold agora contém estruturas previstas para >200 milhões de — essencialmente todas as conhecidas. O AlphaFold3 (2024) estendeu isso a complexos com , e moléculas pequenas.

Para praticantes de bioinformática, isso significa que análises baseadas em estrutura que antes requeriam dados experimentais (cristalografia de raios-X, cryo-EM) agora estão disponíveis computacionalmente para praticamente qualquer .

Domínios de Proteínas: Módulos e Bibliotecas

A evolução raramente constrói do zero. Em vez disso, recombina e modifica unidades estruturais existentes chamadas domínios — segmentos com dobramento independente com estrutura e função definidas que aparecem em muitas diferentes.

Exemplos clássicos:

Domínio SH2: liga resíduos de fosfotirosina. Encontrado em >120 humanas. Transdutor chave na sinalização de tirosina quinase.
Domínios de ligação ao : dedos de zinco, hélice-volta-hélice, zíper de leucina — cada um com preferências de sequência de específicas
Domínio quinase: o núcleo catalítico das quinases, responsável por fosforilar resíduos de serina, treonina ou tirosina
Domínios de ligação à ubiquitina: reconhecem modificações de ubiquitina em outras

Uma única pode conter múltiplos domínios de diferentes "famílias," frequentemente conectados por linkers flexíveis. Essa modularidade significa que você pode inferir função parcial apenas a partir da sequência — se você encontrar um domínio SH2 em uma não caracterizada, ela quase certamente liga fosfoproteínas.

Os bancos de dados Pfam e InterPro catalogam domínios proteicos conhecidos e podem ser usados para anotar previstas a partir de sequência genômica.

Modificações Pós-Traducionais: Configuração em Runtime

As não chegam ao seu estado funcional final diretamente do ribossomo. As modificações pós-traducionais (PTMs) adicionam grupos funcionais após a síntese:

PTM	Efeito	Função biológica
Fosforilação	Adiciona carga negativa, altera forma	Switches liga/desliga de transdução de sinal
Ubiquitinação	Sinaliza para degradação proteassômica ou tráfego	Turnover de proteínas, reparo de DNA
Glicosilação	Adiciona cadeias de açúcar	Estabilidade de membrana, reconhecimento celular
Acetilação	Neutraliza carga positiva	Regulação de histonas, enzimas metabólicas
Metilação	Efeito variável de carga	Código de histonas, interações proteína-proteína
Clivagem	Remove peptídeo sinal ou prodomínio	Ativação de proteína, secreção

A fosforilação sozinha envolve ~70.000 sítios de fosforilação conhecidos no proteoma humano. Quinases (adicionam grupos fosfato) e fosfatases (os removem) formam redes regulatórias intrincadas — a sinalização celular é amplamente escrita na linguagem da fosforilação.

{ }PTMs como feature flags em runtime

Se a sequência de é o binário, as modificações pós-traducionais são o estado em runtime. A mesma pode ser ativa ou inativa, nuclear ou citoplasmática, estável ou marcada para degradação — tudo determinado por quais PTMs ela carrega em um dado momento.

A fosfoproteômica (espectrometria de massa que mede estados de fosforilação) é análoga à instrumentação em runtime: você não está lendo o código, você está observando o estado em execução do sistema.

Degradação de Proteínas: Coleta de Lixo

As não vivem para sempre. A tem duas principais de degradação:

O sistema ubiquitina-proteassomo (UPS): marcadas com cadeias de ubiquitina (uma pequena de 76 aa) são reconhecidas e degradadas pelo proteassomo 26S — um grande complexo em forma de barril cujo compartimento central contém proteases. Esta é a primária para degradar citoplasmáticas, regulatórias de curta meia-vida e mal dobradas. ~80% da degradação de celulares passa pelo UPS.

Autofagia: Porções do citoplasma — incluindo organelas inteiras e agregados de — são engolfadas por uma vesícula de dupla (autofagossomo) que se funde com o lisossomo para degradação. Usada para turnover em massa, controle de qualidade de organelas (a mitofagia limpa mitocôndrias danificadas) e reciclagem de nutrientes durante privação.

Ambas as são rigidamente reguladas. Disfunção em qualquer uma contribui para neurodegeneração (doenças de agregação proteica como Parkinson, Alzheimer), câncer (estabilização inapropriada de oncoproteínas) e envelhecimento.

Por Que as Proteínas São Centrais para a Bioinformática

Quase tudo em bioinformática se relaciona em última análise com :

A anotação de pergunta: essa muda a sequência, estrutura ou estabilidade da ?
A descoberta de fármacos pergunta: quais são bons alvos e como uma molécula pequena se liga a elas?
O de única informa quais estão sendo , mas a abundância de é a downstream
A bioinformática estrutural usa sequência para prever ou analisar estrutura 3D

A proteômica — medição por espectrometria de massa de abundâncias e modificações de — está se tornando cada vez mais importante junto com a transcriptômica. Ao contrário do , as são diretamente funcionais; a correlação entre abundância de e abundância de é apenas moderada (~0,4–0,6 Pearson r na maioria dos estudos). As razões incluem eficiência de diferencial, estabilidade variável das e regulação por PTM.

Conhecer a — sua sequência, estrutura, modificações, parceiros de ligação e estabilidade — é conhecer o que a está realmente fazendo agora.

⟷DECODER

Biology

As proteínas são polímeros lineares de aminoácidos que se dobram em estruturas tridimensionais. Sua função — enzima, transportador, receptor, componente estrutural — é inteiramente determinada por sua forma. Uma única mudança de aminoácido pode abolir ou alterar completamente a função.

{ } For Developers

Uma proteína é um binário compilado e linkado. A sequência de aminoácidos é o código de máquina, o dobramento 3D é o executável carregado em memória. Modificações pós-traducionais (fosforilação, glicosilação) são patches em runtime — alteram o comportamento sem recompilar. Uma mutação missense é um flip de único byte que pode travar o processo ou corromper o estado silenciosamente.

LAB · Composição de Aminoácidos

Python · Pyodide

# As proteínas são cadeias de aminoácidos.
# Cada aminoácido tem propriedades químicas distintas que determinam o dobramento da proteína.

PROPERTIES = {
  "A": "hidrofóbico", "V": "hidrofóbico", "I": "hidrofóbico",
  "L": "hidrofóbico", "F": "hidrofóbico", "W": "hidrofóbico",
  "G": "hidrofóbico", "P": "hidrofóbico", "M": "hidrofóbico",
  "S": "polar", "T": "polar", "C": "polar", "Y": "polar",
  "N": "polar", "Q": "polar",
  "D": "carregado(-)", "E": "carregado(-)",
  "K": "carregado(+)", "R": "carregado(+)", "H": "carregado(+)",
}

def profile(seq):
  counts = {}
  for aa in seq.upper():
      prop = PROPERTIES.get(aa, "desconhecido")
      counts[prop] = counts.get(prop, 0) + 1
  return counts

# Um peptídeo curto da cadeia B da insulina
insulin_b_chain = "FVNQHLCGSHLVEALYLVCGERGFFYTPKT"

result = profile(insulin_b_chain)
total = len(insulin_b_chain)

print("Peptídeo:", insulin_b_chain)
print("Tamanho :", total, "aminoácidos")
print()
for prop, count in sorted(result.items()):
  bar = "#" * count
  print(f"  {prop:16}: {bar} ({count})")
print()
print("Resíduos hidrofóbicos se dobram para dentro, longe da água.")
print("Resíduos carregados ficam voltados para fora, permitindo solubilidade e interações.")