domingo, 23 de agosto de 2020

Infiriendo la historía evolutiva reciente del SARS-Cov-2 a partir de la secuencia genética de la proteina “S”


Diego Castro 

 

Diego Castro. Ing. en Biotecnología. Estudiante de posgrado con especialidad en Biotecnología de Plantas.

Mail: diego.castro@cinvestav.mx

 

Resumen

 

La pandemia producida por el SARS-Cov-2 a llegado a cinco continentes, infectado a millones de personas y causado la muerte de al menos medio millón desde su surgimiento a finales de 2019. El genoma del SARS-Cov-2 es casi identico al del SARS-Cov, el agente causante de la pandemia de SARS en 2003, y es muy parecido al de otros coronavirus que afectan a mamiferos como cerdos, murcielagos y pangolines. Las polémicas recientes sobre el origen del SARS-Cov-2 representan una oportunidad para ejemplificar el uso e importancia de los métodos de inferencia evolutiva que son usados en la actualidad. Así, se infirió la filogenía del SARS-Cov-2, comparando la secuencia de la proteina “S” con las secuencias de otros 20 coronavirus de distintos tipos y origenes, ello se hizo a través de la herramienta PhyML-SMS. Se pudo corroborar que la relación ancestral más reciente que tiene la proteina “S” del SARS-Cov-2 se da con una variedad de coronavirus encontrada en el murcielago Rhinolophus affinis, Cov-RaTG13, por lo que es factible que el SARS-Cov-2 provenga de ese u otro coronavirus parecido. La proteína “S” de los coronavirus tiene algunas características interesantes, como su proporción G-C y su gran variabilidad, además, todas las secuencias de SARS-Cov-2 contienen una inserción de 12 bases nitrogenadas que codifica para una cadena de aminoácidos básicos que podría estar relacionada con el incremento en el potencial infeccioso del virus.

 

Introducción

 

Desde la primera aparición de la enfermedad conocida como COVID-19 en Wuhan, China, ha habido una intensa movilización dentro de la comunidad científica para estudiar al agente responsable de la mencionada enfermedad, el SARS-Cov-2. Hasta el 8 de julio del 2020, al menos 11, 900,885 personas han sido infectadas con el virus, y no menos de 545,728 personas han perdido la vida en todos los continentes habitados como consecuencia del COVID-19 (CSSE, 2020); se trata de una pandemia sin precedentes en la historia moderna.

El SARS-Cov-2 es un tipo de coronavirus, estos virus se catalogan dentro del orden de los Nidovirales, familia Coronaviridae, subfamilia Coronaviridae. Dicha subfamilia incluye 4 géneros, de los cuales solo los alfacoronavirus y Betacoronavirus son capaces de infectar humanos (Cui et al., 2019). Existen pocas cepas de coronavirus capaces de infectar al ser humano, hasta la epidemia de 2003 se consideraba que mayoría de las coronavirus  ejercían poca patogenicidad sobre los humanos, causando afecciones respiratorias, gastrointestinales, renales y hepáticas con síntomas leves o inexistentes, especialmente en personas inmunocomprometidas, niños y adultos mayores; lo anterior cambió tras la llegada del SARS-Cov y el MERS-Cov, los cuales son capaces de generar un síndrome respiratorio severo que puede ser mortal para los pacientes infectados. Más recientemente, el SARS-Cov-2 se convirtió en el séptimo coronavirus capaz de infectar al ser humano, el virus tiene una mortalidad promedio más baja (alrededor de 2.1%) comparada con la del SARS-Cov de 2003 (alrededor del 10%), sin embargo, el SARS-Cov-2 ha demostrado ser mucho más contagioso que su predecesor (Xu et al., 2020).

El genoma del SARS-Cov-2 tiene un porcentaje de identidad del 85% con respecto a otros virus de tipo SARS (SARS-like), y tiene hasta un 96% de identidad con el coronavirus RaTG13, que infecta a los murciélagos Rhinolophus affinis (Andersen et al., 2020; Xu et al., 2020). A pesar de que el enorme parecido entre el Sars-Cov-2 y otros coronavirus sugiere un origen en común, se han suscitado varias polémicas en relación con el origen de este; por lo que durante el presente documento nos hemos abocado a analizar, a través de programas informáticos que hacen uso de diversos modelos matemáticos, la posible historia evolutiva del SARS-Cov-2, así como algunas características que lo vuelven único en su tipo. Dicho análisis se llevó a cabo sobre la proteína “S” (spike), ya que es la “llave” que permite al virus ingresar y parasitar a las células humanas al interactuar con la enzima convertidora de angiotensina 2 (ACE2); además, porque la secuencia genética de la proteína S es la más variable dentro del genoma del SARS-Cov-2 (Andersen et al., 2020).

 

Resultados 

 

Se obtuvieron las secuencias genéticas correspondientes a la proteína S de 21 distintos coronavirus a través de la herramienta BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi), incluidas 10 secuencias de Sars-Cov-2, 5 secuencias provenientes de distintos coronavirus encontrados en murciélagos, incluyendo RaTG13, y 6 secuencias de coronavirus encontradas en Pangolín; en la tabla 1 se observa el origen e identificador de cada una de las secuencias en cuestión. La alineación múltiple se llevó a cabo utilizando el paquete de alineación MAFFT (disponible en https://ngphylogeny.fr/tools/), el cual es conveniente debido a que dicho paquete no lleva a cabo una comparación por pares de “todos contra todos”, lo que a su vez disminuye los costos computacionales (Bawono et al., 2017). En la imagen 1 se muestra un segmento de la alineación múltiple resultante; es de llamar la atención que todas secuencias correspondientes a SARS-Cov-2 contienen una inserción de 12 bases nitrogenadas entre los sitios 2045 y 2056, mientras que dicha secuencia está ausente en todas las secuencias distintas a SARS-Cov-2.

A partir de la alineación múltiple que se aprecia en la imagen 1, se llevó a cabo el procedimiento de inferencia de una filogenia. Para ello se utilizó el programa PhyML+SMS (disponible en https://ngphylogeny.fr/tools/), el cual permite inferir filogenias a través del método de máxima verosimilitud. El método de máxima verosimilitud implica la construcción de un “bosque de árboles” que representa a todas las posibles filogenias que se pueden obtener a partir de los datos que se tienen (21 secuencias, en nuestro caso), y, después, el software evalúa una proporción de esos árboles para determinar el árbol que mejor se corresponde con los datos de acuerdo con un modelo de evolución molecular terminado. En este caso se utilizó un programa con “Smart Model Selection” (SMS) de tipo “BIC” (Bayesian information criterion), el cual evalúa la verosimilitud de los distintos modelos de evolución molecular y castiga severamente la sobreparametrización, por lo que el programa en si mismo determinó el mejor modelo de evolución molecular que se ajusta con los datos (Yang and Rannala, 2012; Sullivan and Joyce, 2005). El siguiente matiz es importante: el árbol seleccionado como el “más verosímil”, se refiere al “más verosímil” dentro de los árboles analizados, el cual puedo o no ser el más verosímil entre todos los árboles posibles; esto pasa debido a que, dada la naturaleza NP-completa (NP=Polinómica no determinista) del problema, es computacionalmente muy costoso analizar todos los árboles. Se utilizó el algoritmo NNI (nearest-neighbor interchange) para determinar la topología más verosímil del árbol, NNI es una versión más ligera que SPR (Subtree-Pruning-Regrafting), que debería funcionar muy bien en nuestras secuencias debido a que son muy similares. El soporte estadístico de las ramas se determinó a partir del método aLRT (approximate likelyhood radio test) con la corrección no paramétrica SH (Shimodaira–Hasegawa). En la imagen 2 se observa el dendograma que arroja el programa PhyML-SMS al introducir los parametros antes mencionados, con raíz y sin raíz.

En el panel A de la imagen 2 se observa el dendograma, sin raíz, de las 21 secuencias de la proteína S de distintos coronavirus. De inmediato salta a la vista que la secuencia RaTG13 es la tiene la relación ancestral más cercana al clado de las 10 secuencias de SARS-Cov-2, tal como lo han indicado otros autores (Wrobel et al., 2020). De igual manera, es interesante que nuestros resultados indiquen que una secuencia de Pangolin (PCov-MT121216) es la segunda más cercana al clado de SARS-Cov-2, ya que hay información que indica que existe mayor similitud entre el área conocida como “Receptor Binding Domain” (RBD) de SARS-Cov-2 y PCov, en comparación con SARS-Cov-2 y RaTG13 (Andersen et al., 2020). En el panel B se observa el mismo dendograma, al cual se le añadió raíz en un sitio en el que, biológicamente, tendría sentido ubicarla.

 

Discusión 

 

Como ya se mencionó antes, salta a la vista que la única característica compartida entre todas las secuencias de coronavirus es una inserción de 12 bases nitrogenadas entre los sitios 2045 y 2056. Desde luego, existen otras diferencias compartidas entre algunas secuencias de SARS-Cov-2, pero esta es la única que, de forma inequívoca, es distintiva del SARS-Cov-2 en comparación con otros coronavirus, incluyendo el SARS-Cov. Se sabe que la cadena polibásica que codifican dichas bases nitrogenadas incluye un sitio de corte de una furina (un tipo de enzimas humanas que cortan proteínas en sitios específicos), sin embargo, no se sabe la función precisa que esta tiene durante el ciclo infeccioso de Sars-Cov-2,  en otros virus como el de la influenza aviar del subtipo H5, la cadena polibásica ha sido relacionada con un incremento importante en la virulencia, aunque por si sola es incapaz de generar dicho incremento (Gohrbandt et al., 2011; Andersen et al., 2020). Además, se puede observar en la imagen 1 que no hay variación en las bases de esa secuencia de 12 aminoácidos entre las 10 secuencias de SARS-Cov-2, y que, a diferencia de la secuencia completa de la proteína S que contiene un 37.5% de C-G, la inserción de 12 bases nitrogenadas se conforma casi por completo de C-G. El alto contenido de G-C de la inserción de 12 bases nitrogenadas podría tener alguna relación con el nivel de conservación de esta secuencia entre los distintos tipos de SARS-Cov-2, ya que en mamíferos las islas de CpG están estrechamente relacionadas con las secuencias de genes funcionales, las cuales tienen un sistema de reparación de daños mucho más refinado que otras secuencias y tienden a exhibir una proporción más alta de mutaciones sinónimas (Page and Holmes, 2009). Se esperaría que una proteína tan importante para el ciclo de vida del virus estuviera bajo un alto nivel de restricción funcional, con una proporción de mutaciones sinónimas más alto que las mutaciones no sinónimas, sin embargo, parece que las mutaciones no sinónimas son bastante comunes en la secuencia de la proteína S, y frecuentemente resultan en nuevos coronavirus que exhiben distinto potencial infeccioso y pueden afectar nuevas especies de mamíferos.

Como se observa en ambos paneles de la imagen 2, el indicador SH-aLRT es cero para las ramas finales de las distintas variedades de SARS-Cov-2, se trata de una politomia, ello podría ser explicado de dos maneras distintas, primero, que todas esas secuencias divergieron al mismo tiempo, o bien, podría indicar que existe cierta incertidumbre acerca de la relación precisa entre cada una de las secuencias de SARS-Cov-2, probablemente debido a que las diferencias entre las secuencias son demasiado pocas (Page and Holmes, 2009). De cualquier manera, no queda ninguna duda de que el clado más cercano, que incluye secuencias distintas a SARS-Cov-2, es el que incluye las secuencias de RaTG13 y Pangolín MT121216. En cuanto al origen del nuevo SARS-Cov-2, el presente documento demuestra que, en sintonía con las técnicas utilizadas hasta ahora por la comunidad científica para inferir árboles filogenéticos y que han sido utilizadas con éxito para inferir la propia historia evolutiva del ser humano, es perfectamente factible que el SARS-Cov-2 haya surgido a partir de la recombinación con otros coronavirus (Li et al., 2020), o la acumulación de errores durante el proceso de replicación de un coronavirus previamente existente, quizá RaTG13 o PCov- MT121216, o uno similar a estos. Sin embargo, vale la pena aclarar que, debido a que las filogenias se infieren a partir de modelos matemáticos y probabilísticos, es imposible afirmar categóricamente, a partir de lo datos aquí presentados, un origen determinado para el SARS-Cov-2.

 

Material y Métodos

 

Las 21 secuencias utilizadas en el presente trabajo fueron obtenidas a partir de la herramienta BLAST, disponible en la siguiente liga: https://blast.ncbi.nlm.nih.gov/Blast.cgi. Las secuencias de SARS-Cov-2 se buscaron en la base de datos de Betacoronavirus, las secuencias distintas a SARS-Cov-2 se buscaron en la misma base de datos, indicando la exclusión de las secuencias de SARS-Cov-2. Las secuencias se descargaron en formato FASTA y se guardaron en un solo archivo

Para la alineación múltiple, el archivo se ingresó en la herramienta MAFFT, sin agregar parámetros adicionales, disponible en la siguiente liga https://ngphylogeny.fr/tools/. La alineación se descargó en formato FASTA y se utilizó el programa Jalview 2.11.1.0. para visualizarla, tal como se ve en la imagen 1.

El archivo FASTA con la alineación múltiple se introdujo en el programa PhyML+SMS, disponible en https://ngphylogeny.fr/tools/, utilizando BIC para evaluar los distintos modelos de evolución molecular, NNI para determinar la topología más verosímil, y SH-aLRT como criterio de verosimilitud de las ramas.

 

Material suplementario

 

Referencias

 

Andersen, K. G., Rambaut, A., Lipkin, W. I., Holmes, E. C., & Garry, R. F. (2020). The proximal origin of SARS-CoV-2. Nature Medicine, 26(4), 450-452. doi:10.1038/s41591-020-0820-9.

Bawono, P., Dijkstra, M., Pirovano, W., Feenstra, A., Abeln, S., & Heringa, J. (2017). Multiple Sequence Alignment. In J. M. Keith (Ed.), Bioinformatics (p. 491). Humana Press. doi:10.1007/978-1-4939-6622-6.

CSSE (2020). Coronavirus Resource Center. https://coronavirus.jhu.edu/map.html. Accessed 08/07/2020 2020.

Cui, J., Li, F., & Shi, Z.-L. (2019). Origin and evolution of pathogenic coronaviruses. Nature Reviews Microbiology, 17(3), 181-192. doi:10.1038/s41579-018-0118-9.

Gohrbandt, S., Veits, J., Hundt, J., Bogs, J., Breithaupt, A., Teifke, J. P., et al. (2011). Amino acids adjacent to the haemagglutinin cleavage site are relevant for virulence of avian influenza viruses of subtype H5. Journal of General Virology, 92(1), 51-59. doi:https://doi.org/10.1099/vir.0.023887-0.

Li, X., Giorgi, E. E., Marichannegowda, M. H., Foley, B., Xiao, C., Kong, X.-P., et al. (2020). Emergence of SARS-CoV-2 through recombination and strong purifying selection. Science Advances, 6(27), eabb9153. doi:10.1126/sciadv.abb9153.

Page, R. D. M., & Holmes, E. C. (2009). Molecular Evolution: A Phylogenetic Approach. Wiley.

Sullivan, J., & Joyce, P. (2005). Model Selection in Phylogenetics. Annual Review of Ecology, Evolution, and Systematics, 36(1), 445-466. doi:10.1146/annurev.ecolsys.36.102003.152633.

Wrobel, A. G., Benton, D. J., Xu, P., Roustan, C., Martin, S. R., Rosenthal, P. B., et al. (2020). SARS-CoV-2 and bat RaTG13 spike glycoprotein structures inform on virus evolution and furin-cleavage effects. Nature Structural & Molecular Biology. doi:10.1038/s41594-020-0468-7.

Xu, J., Zhao, S., Teng, T., Abdalla, A. E., Zhu, W., Xie, L., et al. (2020). Systematic Comparison of Two Animal-to-Human Transmitted Human Coronaviruses: SARS-CoV-2 and SARS-CoV. Viruses, 12(2), 244.

Yang, Z., & Rannala, B. (2012). Molecular phylogenetics: principles and practice. Nature Reviews Genetics, 13(5), 303-314. doi:10.1038/nrg3186.