Pesquisadores do Massachusetts Institute of Technology (MIT) desenvolvem um modelo capaz de prever as partes das proteínas de vírus com maior probabilidade de sofrer mutações, fenômeno capaz de comprometer a eficácia de vacinas. Eles identificaram alvos no HIV, na influenza e no Sars-CoV-2, causador da covid-19. Uma das razões pelas quais é tão difícil produzir imunizantes eficazes contra alguns tipos de vírus é que esses micro-organismos sofrem mutações muito rapidamente. Isso permite a eles evitar os anticorpos gerados por uma vacina específica, um processo conhecido como fuga ou escape viral.
Agora, a equipe do MIT desenvolveu uma nova maneira de modelar computacionalmente o escape viral. A ferramenta pode prever quais seções das proteínas da superfície do vírus têm maior probabilidade de sofrer mutação de forma a permitir a fuga. Com ela, também é possível identificar seções com menor probabilidade de ocorrência de alterações, tornando-as bons alvos para novas vacinas.
“A fuga viral é um grande problema. O escape da proteína de superfície da gripe e o da proteína de superfície do envelope do HIV são altamente responsáveis pelo fato de não termos uma vacina universal contra essas duas doenças, responsáveis por centenas de milhares de mortes por ano”, enfatiza Bonnie Berger, professora de matemática da Simons, chefe do grupo de Biologia e Computação do Laboratório de Ciência da Computação e Inteligência Artificial do MIT e autora do artigo sobre o modelo, divulgado na edição de hoje da revista Science.
Diferentes tipos de vírus adquirem mutações genéticas em taxas distintas, e o HIV e o da gripe estão entre os que sofrem alterações mais rápidas. Para que essas mudanças promovam o escape viral, elas devem ajudar o patógeno a mudar a forma de suas proteínas de superfície, de forma que os anticorpos não possam mais se ligar a elas. No entanto, a proteína não pode mudar a ponto de se tornar não funcional.
A equipe do MIT decidiu agir sobre esses critérios usando um tipo de modelo computacional conhecido como modelo de linguagem, da área de processamento de linguagem natural (PNL). Ele foi originalmente projetado para analisar padrões na linguagem, especificamente a frequência com que certas palavras ocorrem juntas. Faz, por exemplo, previsões de quais palavras podem ser usadas para completar uma frase com uma palavra gramaticalmente correta e que se encaixe ao contexto. Na frase, “Sally comeu ovos para ...”, o modelo de PNL pode prever “café da manhã” ou “almoço”, por exemplo.
A principal conclusão dos pesquisadores foi de que esse tipo de modelo também pode ser aplicado a informações biológicas, como sequências genéticas. Nesse caso, a gramática é análoga às regras que determinam se a proteína codificada por uma determinada sequência é funcional ou não, e o significado semântico é análogo a se a proteína pode assumir uma nova forma que a ajude a evitar anticorpos.
Portanto, uma mutação que permite o escape viral deve manter a gramaticalidade da sequência, mas alterar a estrutura da proteína de uma forma útil. “Se um vírus quer escapar do sistema imunológico humano, ele não quer sofrer mutação de forma que morra ou não possa se replicar. Ele quer preservar a boa forma, mas se disfarça o suficiente para que seja indetectável pelo sistema imunológico humano”, explica Brian Hie, autor principal do artigo e estudante de graduação do MIT.
Sequências genéticas
Para modelar esse processo, os pesquisadores treinaram um modelo de PNL para analisar padrões encontrados em sequências genéticas, o que permite prever mutações que ainda seguem as regras biológicas da estrutura da proteína. Uma vantagem significativa desse método é que ele requer apenas informações de sequência, que são muito mais fáceis de serem obtidas, quando comparadas a estruturas de proteínas inteiras. O modelo pode ser treinado com uma quantidade relativamente pequena de informações — nesse estudo, os pesquisadores usaram 60 mil sequências de HIV, 45 mil de influenza e 4 mil do novo coronavírus.
“Os modelos de linguagem são muito poderosos porque podem aprender essa estrutura de distribuição complexa e obter algumas informações sobre a função apenas a partir da variação de sequência”, diz Hie. “Temos esse grande corpus de dados de sequência viral para cada posição de aminoácido, e o modelo aprende essas propriedades de coocorrência e covariação de aminoácidos nos dados de treinamento.”
Uma vez que o modelo foi treinado, os pesquisadores o usaram para prever as sequências da proteína spike do Sars-CoV-2, da proteína do envelope do HIV e da proteína hemaglutinina (HA) da influenza que teriam mais ou menos probabilidade de gerar mutações de escape. No caso da influenza, o método revelou que as sequências com menor probabilidade de sofrer mutação e produzir escape viral estavam no tronco da proteína HA. Isso é consistente com estudos que mostram que os anticorpos cujo alvo é essa porção podem oferecer proteção quase universal contra qualquer cepa da gripe.
Em seus estudos sobre o HIV, os pesquisadores descobriram que a região hipervariável V1-V2 da proteína tem muitas mutações de escape possíveis, o que é consistente com descobertas anteriores. Também encontraram sequências que teriam menor probabilidade de escape.