La empresa DeepMind, adquirida por Google el 2014, creó un algoritmo basado en inteligencia artificial llamado AlphaFold para predecir la forma de una proteína a partir de su cadena de aminoácidos.
Desde 1994, cada dos años se hace la competencia CASP (sigla en inglés de Evaluación Crítica de Predicción de Estructura), donde distintos equipos compiten por predecir la forma de varias proteínas. Para la competencia se ocupan proteínas cuya estructura ya ha sido determinada en forma experimental y que aún no haya sido publicada. Luego, se determina cuál equipo puede hacer predicciones que más se asemejen a la forma real del compuesto.
Ya el 2018 AlphaFold había asombrado a todos cuando superó con creces a lo demás equipos, pero los resultados de este año fueron aún más sorprendentes. El algoritmo llegó casi a un puntaje de 90 sobre 100 puntos, que es considerado equivalente a la precisión obtenida al analizar la estructura con métodos experimentales (como rayos X). Casi 2/3 de las predicciones que hizo AlphaFold son comparables a los resultados experimentales.
¿Qué es predecir la forma de una proteína?
Entender lo que ocurre dentro de una célula es una tarea enormemente compleja, por la diversidad de partículas que interactúan para mantenerla viva a distintas escalas. Una buena analogía de lo que pasa dentro de la célula es pensar que las moléculas que la componen son máquinas que ejecutan acciones necesarias para la vida.
Por ejemplo, en la imagen se muestra la proteína ATP sintasa, una molécula enorme (cada círculo representa un átomo) que se puede pensar como un motor molecular. Un gradiente electroquímico hace rotar la parte inferior de este motor, cuyo movimiento genera la molécula ATP, que es usada como energía en otros procesos de la célula.
Las proteínas son las máquinas más usadas en las células, las herramientas de propósito general. Se construyen para satisfacer variadas funciones, desde la hormona insulina, que regulan el metabolismo, hasta las proteínas actina y miosina, micromotores usados en las células de nuestros músculos para movernos.
Una de las ventajas de las proteínas es que pueden adquirir casi cualquier forma, lo que les permite cumplir variadas funciones. A pesar de esto, son relativamente sencillas de ensamblar. Todas las proteínas parten como una secuencia simple de aminoácidos. Existen sólo 20 tipos posibles, de los cuales cada uno se coloca detrás de otro para formar una cadena, luego doblarse espontáneamente por razones físicos y externos para finalmente adquirir la forma 3D final de la proteína madura (como la ATP sintasa de arriba).
¿El orden es aleatorio? No. La información genética de la célula (ADN y ARN) define la secuencia de aminoácidos de todas proteínas que la célula puede construir. Esta información se lee de forma secuencial, y a medida que se va leyendo, se arma secuencialmente la cadena de aminoácidos.
El gran problema que tienen lo biólogos es predecir la forma 3D que tendrá la proteína a partir de esa secuencia lineal de aminoácidos. Como la forma de la proteína es lo que define su funcionamiento, esto tiene muchas implicancias en distintas aplicaciones biológicas.
Considerando que las cadenas de ADN son relativamente fáciles de "leer", AlphaFold representa un avance importante para determinar el funcionamiento de las proteínas a partir de una nueva fuente, algo que antes sólo era posible observando la proteína directamente con métodos experimentales, que son más lentos y costosos.
¿Qué implica este avance?
Si bien AlphaFold aún no reemplazará totalmente los métodos experimentales, representa un avance que ayudará a estudiar y comprender mejor lo que ocurre dentro de la célula.
Por ejemplo, una predicción de AlphaFold permitió determinar la estructura de una proteína en 30 minutos, lo que el equipo Andrei Lupas, biólogo del instituto Max Planck, llevaba años tratando de determinar. Es más, a principios del 2020 AlphaFold predijo las estructuras de algunas proteínas del SARS-CoV-2 que aún no se habían determinado experimentalmente.
Con algoritmos computacionales como AlphaFold será cada vez más fácil obtener miles de datos (de menor calidad y muchísima cantidad) para realizar nuevas simulaciones y predicciones, información que podría revolucionar la disciplina en novedosas maneras.
El uso de métodos computacionales para predecir lo que ocurre dentro de una célula abre la posibilidad a insospechados avances científicos. Uno de los grandes desafíos pendientes que tiene la humanidad es entender completamente el comportamiento interno de las células. La pandemia del Covid-19 nos hizo darnos cuenta de la importancia de ésto, y de lo mucho que aún nos falta por conocer.
La capacidad de predecir la estructura de las proteínas a partir de su secuencia de aminoácidos es un gran paso en esta dirección. La predicción de su forma, y por lo tanto su comportamiento, nos permitirán desarrollar nuevas drogas, tratamientos y vacunas en el futuro a una velocidad mayor que la de los actuales métodos.