Se o DNA é código-fonte e o RNA é bytecode, as proteínas são os executáveis compilados e em execução que realmente fazem as coisas. Proteínas constroem estruturas celulares, catalisam reações, transmitem sinais, regulam a expressão gênica, transportam moléculas e defendem contra patógenos. A célula é, em um sentido muito real, uma máquina de proteínas — a maior parte do que torna uma célula hepática diferente de um neurônio é o conjunto de proteínas que cada tipo produz e mantém.
Entender proteínas como programador significa entender três coisas: como são construídas (tradução), como alcançam sua função (dobramento) e como essa função pode ser prevista e analisada computacionalmente (biologia estrutural e proteômica).
Tradução: Executando o mRNA
A tradução converte a sequência de nucleotídeos de um mRNA na sequência de aminoácidos de uma proteína. Ocorre nos ribossomos — grandes complexos de rRNA e proteína que funcionam como o ambiente de runtime da célula.
O ribossomo lê o mRNA em tripletos (códons) e, para cada códon, recruta o aminoacil-tRNA correspondente. O tRNA traz o aminoácido correto, o ribossomo forma uma ligação peptídica entre aminoácidos sucessivos, e a cadeia polipeptídica em crescimento é estendida um resíduo por vez.
Os três estágios:
Iniciação
A subunidade ribossômica pequena (40S em eucariontes) se associa ao mRNA no cap 5' e varre em busca do códon de início (AUG, codificando metionina). Quando o encontra, a subunidade grande (60S) se junta, formando o ribossomo 80S completo. A iniciação requer múltiplos fatores de iniciação e hidrólise de GTP.
Elongação
O ribossomo tem três sítios:
- Sítio A (aceptor): onde o aminoacil-tRNA entrante se liga
- Sítio P (peptidil): onde a cadeia peptídica em crescimento é mantida
- Sítio E (saída): onde o tRNA gasto sai
Cada ciclo de elongação:
- Um aminoacil-tRNA com o anticódon correto se liga ao sítio A
- A peptidil transferase (a ribozima de rRNA) transfere a cadeia em crescimento para o aminoácido do sítio A, formando uma nova ligação peptídica
- O ribossomo se transloca um códon na direção 3'→5' (movendo o peptidil-tRNA de A→P, o tRNA antigo de P→E)
Velocidade: ~15–20 aminoácidos/segundo em eucariontes. Uma proteína de 300 aa leva ~20 segundos para ser sintetizada.
Terminação
Quando um códon de parada (UAA, UAG ou UGA) entra no sítio A, um fator de liberação em vez de um tRNA se liga. Isso desencadeia a hidrólise da cadeia peptídica do tRNA final, liberando o polipeptídeo completo. O ribossomo então se dissocia.
Após a liberação, o polipeptídeo recém-sintetizado é apenas uma cadeia linear de aminoácidos. Ele não se torna funcional até se dobrar.
Os 20 Aminoácidos: O Sistema de Tipos
As proteínas são construídas a partir de 20 aminoácidos canônicos, cada um definido por sua cadeia lateral (grupo R). A cadeia lateral determina o caráter químico de um aminoácido:
| Propriedade | Aminoácidos | Consequência funcional |
|---|---|---|
| Não polar/hidrofóbico | Ala, Val, Leu, Ile, Pro, Phe, Trp, Met | Impulsionam a formação do núcleo hidrofóbico |
| Polar, sem carga | Ser, Thr, Cys, Tyr, Asn, Gln | Ligações de hidrogênio, resíduos de sítio ativo |
| Carregado positivamente | Arg, Lys, His | Ligação ao DNA, pontes de sal |
| Carregado negativamente | Asp, Glu | Catálise, repulsão de carga |
| Especial | Gly (flexibilidade), Pro (rigidez, interrompe hélices) | Funções estruturais |
A sequência de aminoácidos — a estrutura primária — contém todas as informações necessárias para dobrar na forma 3D correta. Esse é o dogma de Anfinsen, estabelecido em 1961: a estrutura nativa de uma proteína é o mínimo termodinâmico para aquela sequência. Nenhuma instrução de montagem é necessária além da própria sequência.
Dobramento de Proteínas: Compilação de Sequência para Estrutura
À medida que a cadeia polipeptídica emerge do ribossomo, ela começa a se dobrar. O dobramento é dirigido pela termodinâmica — a proteína busca sua conformação de energia livre mínima — mas não amostra todas as configurações possíveis (isso levaria mais do que a idade do universo). Em vez disso, o dobramento prossegue por um funil de dobramento: uma paisagem de conformações onde a energia diminui em direção ao estado nativo, guiando a cadeia eficientemente.
Estrutura Secundária
O esqueleto polipeptídico forma estruturas locais regulares estabilizadas por ligações de hidrogênio do esqueleto:
-
α-hélice: um espiral direito onde cada NH do esqueleto forma uma ligação de hidrogênio com o C=O do esqueleto quatro resíduos antes. Aproximadamente 1,5 Å de avanço por resíduo, 3,6 resíduos por volta. Comum em proteínas de membrana (α-hélices transmembrana) e muitas proteínas citoplasmáticas.
-
Folha-β: fitas estendidas dispostas lado a lado, mantidas juntas por ligações de hidrogênio entre fitas. Pode ser paralela ou antiparalela. Encontrada em imunoglobulinas, proteínas de membrana β-barril e fibrilas amiloides.
-
Alças e voltas: regiões com estrutura irregular conectando hélices e fitas. Frequentemente localizadas nas superfícies das proteínas e formam sítios de ligação e sítios ativos.
Estrutura Terciária e Quaternária
O arranjo 3D completo de todos os átomos em um único polipeptídeo é sua estrutura terciária. É estabilizada por:
- Interações hidrofóbicas (resíduos não polares se agrupam no núcleo longe da água)
- Ligações de hidrogênio (entre cadeias laterais e esqueleto)
- Pontes dissulfeto (ligações covalentes entre cadeias laterais de cisteína — comuns em proteínas extracelulares)
- Pontes de sal (entre cadeias laterais com carga oposta)
Muitas proteínas funcionais são montagens de múltiplas subunidades — estrutura quaternária. A hemoglobina é um tetrâmero (α₂β₂). O proteassomo é um complexo de 26 subunidades. O ribossomo tem >80 subunidades proteicas mais três rRNAs.
Por 50 anos, prever a estrutura 3D a partir da sequência sozinha era considerado um dos problemas mais difíceis da ciência. Em 2020, o AlphaFold2 da DeepMind alcançou precisão quase experimental no benchmark CASP14, efetivamente resolvendo o problema para proteínas de cadeia única. O banco de dados AlphaFold agora contém estruturas previstas para >200 milhões de proteínas — essencialmente todas as proteínas conhecidas. O AlphaFold3 (2024) estendeu isso a complexos com DNA, RNA e moléculas pequenas.
Para praticantes de bioinformática, isso significa que análises baseadas em estrutura que antes requeriam dados experimentais (cristalografia de raios-X, cryo-EM) agora estão disponíveis computacionalmente para praticamente qualquer proteína.
Domínios de Proteínas: Módulos e Bibliotecas
A evolução raramente constrói proteínas do zero. Em vez disso, recombina e modifica unidades estruturais existentes chamadas domínios — segmentos com dobramento independente com estrutura e função definidas que aparecem em muitas proteínas diferentes.
Exemplos clássicos:
- Domínio SH2: liga resíduos de fosfotirosina. Encontrado em >120 proteínas humanas. Transdutor chave na sinalização de receptor tirosina quinase.
- Domínios de ligação ao DNA: dedos de zinco, hélice-volta-hélice, zíper de leucina — cada um com preferências de sequência de DNA específicas
- Domínio quinase: o núcleo catalítico das proteínas quinases, responsável por fosforilar resíduos de serina, treonina ou tirosina
- Domínios de ligação à ubiquitina: reconhecem modificações de ubiquitina em outras proteínas
Uma única proteína pode conter múltiplos domínios de diferentes "famílias," frequentemente conectados por linkers flexíveis. Essa modularidade significa que você pode inferir função parcial apenas a partir da sequência — se você encontrar um domínio SH2 em uma proteína não caracterizada, ela quase certamente liga fosfoproteínas.
Os bancos de dados Pfam e InterPro catalogam domínios proteicos conhecidos e podem ser usados para anotar proteínas previstas a partir de sequência genômica.
Modificações Pós-Traducionais: Configuração em Runtime
As proteínas não chegam ao seu estado funcional final diretamente do ribossomo. As modificações pós-traducionais (PTMs) adicionam grupos funcionais após a síntese:
| PTM | Efeito | Função biológica |
|---|---|---|
| Fosforilação | Adiciona carga negativa, altera forma | Switches liga/desliga de transdução de sinal |
| Ubiquitinação | Sinaliza para degradação proteassômica ou tráfego | Turnover de proteínas, reparo de DNA |
| Glicosilação | Adiciona cadeias de açúcar | Estabilidade de membrana, reconhecimento celular |
| Acetilação | Neutraliza carga positiva | Regulação de histonas, enzimas metabólicas |
| Metilação | Efeito variável de carga | Código de histonas, interações proteína-proteína |
| Clivagem | Remove peptídeo sinal ou prodomínio | Ativação de proteína, secreção |
A fosforilação sozinha envolve ~70.000 sítios de fosforilação conhecidos no proteoma humano. Quinases (adicionam grupos fosfato) e fosfatases (os removem) formam redes regulatórias intrincadas — a sinalização celular é amplamente escrita na linguagem da fosforilação.
Se a sequência de aminoácidos é o binário, as modificações pós-traducionais são o estado em runtime. A mesma proteína pode ser ativa ou inativa, nuclear ou citoplasmática, estável ou marcada para degradação — tudo determinado por quais PTMs ela carrega em um dado momento.
A fosfoproteômica (espectrometria de massa que mede estados de fosforilação) é análoga à instrumentação em runtime: você não está lendo o código, você está observando o estado em execução do sistema.
Degradação de Proteínas: Coleta de Lixo
As proteínas não vivem para sempre. A célula tem duas vias principais de degradação:
O sistema ubiquitina-proteassomo (UPS): Proteínas marcadas com cadeias de ubiquitina (uma pequena proteína de 76 aa) são reconhecidas e degradadas pelo proteassomo 26S — um grande complexo em forma de barril cujo compartimento central contém proteases. Esta é a via primária para degradar proteínas citoplasmáticas, proteínas regulatórias de curta meia-vida e proteínas mal dobradas. ~80% da degradação de proteínas celulares passa pelo UPS.
Autofagia: Porções do citoplasma — incluindo organelas inteiras e agregados de proteínas — são engolfadas por uma vesícula de dupla membrana (autofagossomo) que se funde com o lisossomo para degradação. Usada para turnover em massa, controle de qualidade de organelas (a mitofagia limpa mitocôndrias danificadas) e reciclagem de nutrientes durante privação.
Ambas as vias são rigidamente reguladas. Disfunção em qualquer uma contribui para neurodegeneração (doenças de agregação proteica como Parkinson, Alzheimer), câncer (estabilização inapropriada de oncoproteínas) e envelhecimento.
Por Que as Proteínas São Centrais para a Bioinformática
Quase tudo em bioinformática se relaciona em última análise com proteínas:
- A anotação de variantes pergunta: essa mutação muda a sequência, estrutura ou estabilidade da proteína?
- A descoberta de fármacos pergunta: quais proteínas são bons alvos e como uma molécula pequena se liga a elas?
- O RNA-seq de célula única informa quais genes estão sendo transcritos, mas a abundância de proteínas é a leitura downstream
- A bioinformática estrutural usa sequência para prever ou analisar estrutura 3D
A proteômica — medição por espectrometria de massa de abundâncias e modificações de proteínas — está se tornando cada vez mais importante junto com a transcriptômica. Ao contrário do mRNA, as proteínas são diretamente funcionais; a correlação entre abundância de mRNA e abundância de proteínas é apenas moderada (~0,4–0,6 Pearson r na maioria dos estudos). As razões incluem eficiência de tradução diferencial, estabilidade variável das proteínas e regulação por PTM.
Conhecer a proteína — sua sequência, estrutura, modificações, parceiros de ligação e estabilidade — é conhecer o que a célula está realmente fazendo agora.