banner
Centro de Noticias
Nuestros productos son apreciados tanto en regiones nacionales como extranjeras.

Integración de pre

Oct 19, 2023

Biología de las comunicaciones volumen 6, número de artículo: 876 (2023) Citar este artículo

4813 Accesos

7 altmétrico

Detalles de métricas

El aprendizaje profundo geométrico ha logrado recientemente un gran éxito en dominios no euclidianos, y el aprendizaje sobre estructuras 3D de grandes biomoléculas está emergiendo como un área de investigación distinta. Sin embargo, su eficacia se ve en gran medida limitada debido a la cantidad limitada de datos estructurales. Mientras tanto, los modelos de lenguaje de proteínas entrenados en secuencias 1D sustanciales han demostrado capacidades florecientes con escala en una amplia gama de aplicaciones. Varios estudios anteriores consideran la combinación de estas diferentes modalidades de proteínas para promover el poder de representación de las redes neuronales geométricas, pero no logran presentar una comprensión integral de sus beneficios. En este trabajo, integramos el conocimiento aprendido mediante modelos de lenguaje de proteínas bien entrenados en varias redes geométricas de última generación y evaluamos una variedad de puntos de referencia de aprendizaje de representación de proteínas, incluida la predicción de la interfaz proteína-proteína, la evaluación de la calidad del modelo, la acoplamiento de cuerpos rígidos de proteínas y predicción de afinidad de unión. Nuestros hallazgos muestran una mejora general del 20 % con respecto a los valores de referencia. Hay pruebas sólidas que indican que la incorporación del conocimiento de los modelos de lenguaje de proteínas mejora la capacidad de las redes geométricas por un margen significativo y puede generalizarse a tareas complejas.

Las macromoléculas (p. ej., proteínas, ARN o ADN) son esenciales para los procesos biofísicos. Si bien se pueden representar mediante representaciones de dimensiones inferiores, como secuencias lineales (1D) o gráficos de enlaces químicos (2D), una forma más intrínseca e informativa es la geometría tridimensional1. Las formas 3D son fundamentales no sólo para comprender los mecanismos físicos de acción sino también para responder una serie de preguntas asociadas con el descubrimiento de fármacos y el diseño molecular2. En consecuencia, se han dedicado enormes esfuerzos en biología estructural a obtener conocimientos a partir de sus conformaciones3,4,5.

Con los rápidos avances de las técnicas de aprendizaje profundo (DL), ha sido un desafío atractivo representar y razonar sobre las estructuras de las macromoléculas en el espacio 3D. En particular, diferentes tipos de información 3D, incluidas las longitudes de enlace y los ángulos diédricos, desempeñan un papel esencial. Para codificarlos, se han propuesto una serie de redes neuronales de gráficos geométricos 3D (GGNN) o CNN6,7,8,9, que logran simultáneamente varias propiedades cruciales de la geometría euclidiana, como la equivarianza E(3) o SE(3). y simetría. En particular, son componentes esenciales del aprendizaje profundo geométrico (GDL), un término general que generaliza las redes a dominios euclidianos o no euclidianos10.

Mientras tanto, el crecimiento previsto de la secuenciación promete datos sin precedentes sobre la diversidad de secuencias naturales. La abundancia de secuencias de aminoácidos 1D ha estimulado un interés creciente en el desarrollo de modelos de lenguaje de proteínas a escala de evolución, como las series de ESM11,12,13 y ProtTrans14. Estos modelos de lenguaje de proteínas pueden capturar información sobre estructuras secundarias y terciarias y pueden generalizarse en una amplia gama de aplicaciones posteriores. Para ser explícito, recientemente se ha demostrado que tienen gran capacidad para descubrir estructuras de proteínas12, predecir el efecto de la variación de secuencia en la función11, aprender el plegamiento inverso15 y muchos otros propósitos generales13.

Con el fructífero progreso en los modelos de lenguaje de proteínas, cada vez más estudios han considerado mejorar la capacidad de los GGNN aprovechando el conocimiento de esos modelos de lenguaje de proteínas12,16,17. Esto no es trivial porque, en comparación con el aprendizaje secuencial, las estructuras 3D son mucho más difíciles de obtener y, por tanto, menos frecuentes. En consecuencia, aprender sobre la estructura de las proteínas conduce a una cantidad reducida de datos de entrenamiento. Por ejemplo, la base de datos SAbDab18 simplemente tiene estructuras anticuerpo-antígeno 3K sin duplicados. La base de datos SCOPe19 tiene 226.000 estructuras anotadas, y la base de datos SIFTS20 comprende alrededor de 220.000 estructuras enzimáticas anotadas. Estas cifras son órdenes de magnitud inferiores a los tamaños de los conjuntos de datos que pueden inspirar grandes avances en la comunidad de aprendizaje profundo. Por el contrario, mientras que el Protein Data Bank (PDB)21 posee aproximadamente 182.000 estructuras de macromoléculas, bases de datos como Pfam22 y UniParc23 contienen más de 47 y 250 millones de secuencias de proteínas, respectivamente.

Además del tamaño de los datos, el beneficio de la secuencia de proteínas para estructurar el aprendizaje también cuenta con evidencia sólida y respaldo teórico. Sorprendentemente, la idea de que las funciones y estructuras biológicas están documentadas en las estadísticas de secuencias de proteínas seleccionadas a través de la evolución tiene una larga historia24. Las variables no observadas que deciden la aptitud de una proteína, incluidas la estructura, función y estabilidad, dejan un registro en la distribución de las secuencias naturales observadas25. Esos modelos de lenguaje de proteínas utilizan la autosupervisión para desbloquear la información codificada en variaciones de secuencia de proteínas, lo que también es beneficioso para los GGNN. En consecuencia, en este artículo, investigamos exhaustivamente la promoción de la capacidad de los GGNN con el conocimiento aprendido mediante los modelos de lenguaje de proteínas (ver Fig. 1). Las mejoras provienen de dos grandes líneas. En primer lugar, los GGNN pueden beneficiarse de la información que surge de las representaciones aprendidas de esos modelos de lenguaje de proteínas sobre las propiedades fundamentales de las proteínas, incluidas las estructuras secundarias, los contactos y la actividad biológica. Este tipo de conocimiento puede resultar difícil para los GGNN conocerlo y aprenderlo en una tarea posterior específica. Para confirmar esta afirmación, llevamos a cabo un experimento de juguete para demostrar que los mecanismos de conectividad de gráficos convencionales impiden que los GGNN existentes conozcan las posiciones absolutas y relativas de los residuos en la secuencia de proteínas. En segundo lugar, y de manera más intuitiva, los modelos de lenguaje de proteínas sirven como una forma alternativa de enriquecer los datos de entrenamiento de los GGNN y permiten que los GGNN estén expuestos a familias de proteínas más diferentes, fortaleciendo así en gran medida la capacidad de generalización de los GGNN.

La secuencia de proteínas primero se envía a un modelo de lenguaje de proteínas previamente entrenado para extraer representaciones por residuo, que luego se utilizan como características de nodos en gráficos de proteínas 3D para GGNN.

Examinamos nuestra hipótesis a través de una amplia gama de puntos de referencia, que contienen evaluación de la calidad del modelo, predicción de la interfaz proteína-proteína, acoplamiento de cuerpo rígido proteína-proteína y predicción de la afinidad de unión de ligando. Amplios experimentos muestran que la incorporación y combinación del conocimiento de los modelos de lenguaje de proteínas previamente entrenados mejoran significativamente el rendimiento de los GGNN para diversos problemas, que requieren un conocimiento de dominio distinto. Al utilizar la visión sin precedentes del lenguaje de las secuencias de proteínas proporcionada por potentes modelos de lenguaje de proteínas, los GGNN prometen aumentar nuestra comprensión de una amplia base de datos de estructuras de proteínas poco comprendidas. Nuestro trabajo espera arrojar más luz sobre cómo cerrar la brecha entre los prósperos modelos de aprendizaje profundo geométrico y lenguaje de proteínas maduro y aprovechar mejor las diferentes modalidades de proteínas.

Nuestros experimentos con juguetes ilustran que los GGNN existentes desconocen el orden posicional dentro de las secuencias de proteínas. Yendo un paso más allá, mostramos en esta sección que la incorporación del conocimiento aprendido mediante modelos de lenguaje de proteínas a gran escala puede mejorar de manera sólida la capacidad de GGNN en una amplia variedad de tareas posteriores.

La Evaluación de la Calidad del Modelo (MQA) tiene como objetivo seleccionar el mejor modelo estructural de una proteína de un gran conjunto de estructuras candidatas y es un paso esencial en la predicción de estructuras26. Para una serie de estructuras resueltas recientemente pero no publicadas, los programas de generación de estructuras producen una gran cantidad de estructuras candidatas. Los enfoques MQA se evalúan por su capacidad de predecir la prueba de distancia global (puntuación GDT-TS) de una estructura candidata en comparación con la estructura resuelta experimentalmente de ese objetivo. Su base de datos está compuesta por todos los modelos estructurales presentados a la Evaluación Crítica de Predicción de Estructuras (CASP)27 durante los últimos 18 años. Los datos se dividen temporalmente por año de competición. MQA es similar a la tarea de Clasificación de Estructura de Proteínas (PSR) introducida por Townshend et al.2.

El acoplamiento de cuerpo rígido proteína-proteína (PPRD) predice computacionalmente la estructura 3D de un complejo proteína-proteína a partir de las estructuras individuales no unidas. Se supone que no se produce ningún cambio de conformación dentro de las proteínas durante la unión. Aprovechamos Docking Benchmark 5.5 (DB5.5)28 como base de datos. Es un conjunto de datos estándar en términos de calidad de datos y contiene 253 estructuras.

La interfaz proteína-proteína (PPI) investiga si dos aminoácidos se pondrán en contacto cuando sus respectivas proteínas se unan. Es un problema importante comprender cómo interactúan las proteínas entre sí; por ejemplo, las proteínas anticuerpo reconocen enfermedades uniéndose a antígenos. Utilizamos la base de datos de estructuras de proteínas que interactúan (DIPS), un conjunto de datos completo de complejos de proteínas extraídos del PDB29, y seleccionamos aleatoriamente 15.000 muestras para su evaluación.

La afinidad de unión de ligandos (LBA) es una tarea esencial para las aplicaciones de descubrimiento de fármacos. Predice la fuerza de la interacción de una molécula de fármaco candidata con una proteína objetivo. Específicamente, nuestro objetivo es pronosticar \(pK=-{\log }_{10}K\), donde K es la afinidad de unión en unidades molares. Utilizamos la base de datos PDBbind30,31, una base de datos seleccionada que contiene complejos proteína-ligando del PDB y sus correspondientes fuerzas de unión. Los complejos proteína-ligando se dividen de manera que ninguna proteína en el conjunto de datos de prueba tenga más del 30 % o 60 % de identidad de secuencia con ninguna proteína en el conjunto de datos de entrenamiento.

Evaluamos nuestro marco propuesto en las instancias de varias redes geométricas de última generación, utilizando Pytorch32 y PyG33 en cuatro puntos de referencia de proteínas estándar. Para MQA, PPI y LBA, utilizamos GVP-GNN, EGNN y Molformer como columna vertebral. Para PPRD, utilizamos un modelo de aprendizaje profundo, EquiDock34, como columna vertebral. Se aproxima a los bolsillos de encuadernación y obtiene las posturas de acoplamiento mediante la coincidencia y alineación de puntos clave. Para obtener más detalles experimentales, consulte la Nota complementaria 3.

Para MQA, documentamos la pérdida de primer rango, la correlación de Spearman (RS), la correlación de Pearson (RP) y la correlación de rango de Kendall (KR) en la Tabla 1. La introducción de modelos de lenguaje de proteínas ha generado un aumento promedio significativo de 32,63 % y 55,71 %. en RS global y media, de 34,66% y 58,75% en RP global y media, y de 43,21% y 63,20% en KR global y media respectivamente. Con la ayuda de modelos de lenguaje, GVP-GNN logra RS, RP global y KR globales óptimos de 84,92%, 85,44% y 67,98% por separado.

Aparte de eso, proporcionamos una comparación completa con todos los enfoques existentes en la Tabla 2. Elegimos RWplus35, ProQ3D36, VoroMQA37, SBROD38, 3DCNN2, 3DGNN2, 3DOCNN39, DimeNet40, GraphQA41 y GBPNet42 como líneas de base. El desempeño se registra en la Tabla 2, donde se destaca el segundo mejor. Se puede concluir que incluso si GVP-GNN no es la mejor arquitectura, puede superar en gran medida a los métodos existentes, incluido el método de última generación sin entrenamiento previo establecido por Ayken y Xia42 (es decir, GBPNet) y el método de última generación sin entrenamiento previo establecido por Ayken y Xia42 (es decir, GBPNet). Resultados de preentrenamiento de última generación establecidos por Jing et al.43 si se mejoran con el modelo de lenguaje de proteínas.

Para PPRD, informamos tres elementos como mediciones: la desviación cuadrática media compleja (RMSD), el ligando RMSD y la interfaz RMSD en la Tabla 3. La interfaz se determina con un umbral de distancia inferior a 8 Å. Es de destacar que, a diferencia del artículo de EquiDock, no aplicamos el algoritmo de Kabsch para superponer el receptor y el ligando. Por el contrario, la proteína receptora se fija durante la evaluación. Las tres métricas disminuyen considerablemente con mejoras del 11,61 %, 12,83 % y 31,01 % en la RMSD mediana del complejo, del ligando y de la interfaz, respectivamente. En particular, también informamos el resultado de EquiDock, que primero se entrenó previamente en DIPS y luego se ajustó en DB5. Se puede descubrir que EquiDock previamente entrenado con DIPS todavía funciona peor que EquiDock equipado con modelos de lenguaje previamente entrenados. Esto demuestra firmemente que el preentrenamiento estructural para GGNN puede no beneficiar a los GGNN más que los modelos de lenguaje de proteínas previamente entrenados.

Para PPI, registramos AUROC como métrica en la Fig. 2. Se puede encontrar que AUROC aumenta en 6,93%, 14,01% y 22,62% para GVP-GNN, EGNN y Molformer, respectivamente. Vale la pena señalar que Molformer se queda atrás de EGNN y GVP-GNN originalmente en esta tarea. Pero después de inyectar el conocimiento aprendido mediante modelos de lenguaje de proteínas, Molformer logra un rendimiento competitivo o incluso mejor que EGNN o GVP-GNN. Esto indica que los modelos de lenguaje de proteínas pueden aprovechar al máximo el potencial de los GGNN y reducir en gran medida la brecha entre diferentes arquitecturas geométricas de aprendizaje profundo. Los resultados mencionados anteriormente son sorprendentes porque, a diferencia de MQA, PPRD y PPI estudian las interacciones geométricas entre dos proteínas. Aunque todos los modelos de lenguaje de proteínas existentes están entrenados en secuencias de proteínas únicas, nuestros experimentos muestran que la información de evolución oculta en secuencias no apareadas también puede ser valiosa para analizar el entorno de múltiples proteínas.

a Resultados del PPI con y sin PLM. b Rendimiento de GGNN en MQA con ESM-2 a diferentes escalas.

Para LBA, comparamos RMSD, RS, RP y KR en la Tabla 4. La incorporación de modelos de lenguaje de proteínas produce una disminución promedio notable del 11,26% y 6,15% en RMSD para una identidad del 30% y 60%, un aumento promedio del 51,09%. y 9,52% en RP para la identidad 30% y 60%, un incremento promedio de 66,60% y 8,90% en RS para la identidad 30% y 60%, y un incremento promedio de 68,52% y 6,70% en KR para la identidad 30% y 60% identidad. Puede verse que las mejoras en la identidad de secuencia del 30 % son mayores que en la identidad de secuencia del 60 % menos restrictiva. Esto confirma que los modelos de lenguaje de proteínas benefician más a los GGNN cuando las muestras invisibles pertenecen a diferentes dominios de proteínas. Además, a diferencia de PPRD o PPI, LBA estudia cómo las proteínas interactúan con moléculas pequeñas. Nuestro resultado demuestra que las representaciones ricas en proteínas codificadas por modelos de lenguaje de proteínas también pueden contribuir al análisis de la reacción de las proteínas a otras moléculas no proteicas similares a los fármacos. El resultado de una división de datos diferente se colocó en la Tabla complementaria 1.

Además, comparamos detalladamente con los enfoques existentes para LBA en la Tabla 5, donde se destaca el segundo mejor. Seleccionamos una amplia gama de modelos, incluidos DeepAffinity44, Cormorant45, LSTM46, TAPE47, ProtTrans14, 3DCNN2, GNN2, MaSIF48, DGAT49, DGIN49, DGAT-GCN49, HoloProt50 y GBPNet42 como base. Está claro que incluso si EGNN es una arquitectura de nivel medio, puede lograr el mejor RMSD y la mejor correlación de Pearson cuando se mejora con modelos de lenguaje de proteínas, superando a un grupo de líneas de base sólidas que incluyen HoloProt50 y GBPNet42.

Se ha observado que a medida que aumenta el tamaño del modelo de lenguaje, se producen mejoras consistentes en tareas como la predicción de estructuras12. Aquí llevamos a cabo un estudio de ablación para investigar el efecto de los tamaños de los modelos de lenguaje de proteínas en los GGNN. Específicamente, exploramos diferentes ESM-2 con los números de parámetros de 8M, 35M, 150M, 650M y 3B y trazamos los resultados en la Fig. 2. Verifica que escalar el modelo de lenguaje de proteínas es ventajoso para los GGNN. Se pueden encontrar más resultados adicionales en la Nota complementaria 4. También proporcionamos una comparación de diferentes tipos de influencia de los PLM en la Tabla complementaria 2. Además de eso, investigamos la diferencia de efectividad de los PLM con y sin MSA en la Tabla complementaria 3.

A pesar de nuestra confirmación exitosa de que los PLM pueden promover el aprendizaje profundo geométrico, quedan varias limitaciones y extensiones de nuestro marco abiertas para futuras investigaciones. Por ejemplo, nuestros gráficos de proteínas en 3D son a nivel de residuos. Creemos que los gráficos de proteínas a nivel atómico también se benefician de nuestro enfoque, pero su aumento en el rendimiento necesita una mayor exploración.

En este estudio, investigamos un problema que ha sido ignorado durante mucho tiempo por los métodos geométricos de aprendizaje profundo existentes para proteínas. Es decir, cómo emplear los abundantes datos de secuencias de proteínas para el aprendizaje de representaciones geométricas en 3D. Para responder a esta pregunta, proponemos aprovechar el conocimiento aprendido por los modelos avanzados de lenguaje de proteínas previamente entrenados existentes y utilizar sus representaciones de aminoácidos como características iniciales. Llevamos a cabo una variedad de experimentos, como el acoplamiento proteína-proteína y la evaluación de la calidad del modelo, para demostrar la eficacia de nuestro enfoque. Nuestro trabajo proporciona un mecanismo simple pero efectivo para cerrar la brecha entre los modelos secuenciales 1D y las redes neuronales geométricas 3D, y esperamos arrojar luz sobre cómo combinar información codificada en diferentes modalidades de proteínas.

Se reconoce comúnmente que las estructuras de las proteínas mantienen mucha más información que sus correspondientes secuencias de aminoácidos. Y durante décadas, ha sido un desafío abierto para los biólogos computacionales predecir la estructura de las proteínas a partir de su secuencia de aminoácidos. Aunque el avance de Alphafold (AF)51 y RosettaFold52 ha dado un gran paso para aliviar la limitación impuesta por la cantidad de estructuras proteicas disponibles determinadas experimentalmente, ni AF ni sus sucesores como Alphafold-Multimer53, IgFold54 y HelixFold55 son una panacea. Sus estructuras predichas pueden ser muy inexactas cuando la proteína es huérfana y carece de alineación de secuencias múltiples (MSA) como plantilla. En consecuencia, es difícil concluir que las secuencias de proteínas puedan transformarse perfectamente a la modalidad de estructura con las herramientas actuales y usarse como recursos de capacitación adicionales para los GGNN.

Además, argumentamos que incluso si la conformación es una representación de dimensiones superiores, el paradigma de aprendizaje predominante puede prohibir a los GGNN capturar el conocimiento que se conserva de forma única en las secuencias de proteínas. Recuerde que los GGNN son principalmente diversos en sus patrones para emplear geometrías 3D, las características de entrada incluyen distancia56, ángulos40, torsión y términos de otros órdenes57. Sin embargo, el índice de posición oculto en las secuencias de proteínas generalmente se ignora al construir gráficos 3D para GGNN. Por lo tanto, en esta sección, diseñamos una prueba de juguete para examinar si los GGNN pueden recuperar este tipo de información posicional.

Aquí la estructura de una proteína se puede representar como un gráfico a nivel de átomo o de residuo \({{{{{{{\mathcal{G}}}}}}}}=({{{{{{{\ mathcal{V}}}}}}}},{{{{{{{\mathcal{E}}}}}}}})\), donde \({{{{{{{\mathcal{V} }}}}}}}\) y \({{{{{{{\mathcal{E}}}}}}}}=({e}_{ij})\) corresponden al conjunto de N nodos y M bordes respectivamente. Los nodos tienen sus coordenadas 3D \({{{{{{\bf{x}}}}}}}}\in {{\mathbb{R}}}^{N\times 3}\) y la ψh ​​inicial Características invariantes roto-traduccionales de dimensión \({{{{{{{\bf{h}}}}}}}}\in {{\mathbb{R}}}^{N\times {\psi }_{ h}}\) (por ejemplo, tipos de átomos y electronegatividad, clases de residuos). Normalmente, hay tres tipos de opciones para construir conectividad para moléculas: gráficos de r-ball, gráficos completamente conectados (FC) y gráficos de K-vecinos más cercanos (KNN). En nuestro entorno, los nodos están vinculados a K = 10 vecinos más cercanos para gráficos KNN, y los bordes incluyen todos los pares de átomos dentro de un límite de distancia de 8 Å para gráficos de r-ball.

Dado que la mayoría de los estudios anteriores optan por establecer gráficos de proteínas 3D basados ​​en información puramente geométrica e ignoran sus identidades secuenciales, se genera la siguiente pregunta sobre la identidad de la posición:

¿Pueden los GGNN existentes identificar el orden de posición secuencial solo a partir de estructuras geométricas de proteínas?

Para responder a esta pregunta, formulamos dos categorías de tareas con juguetes (ver Fig. 3). El primero es el reconocimiento de posición absoluta (APR), que es una tarea de clasificación. Se pide a los modelos que predigan directamente el índice de posición que va de 1 a N, el número de residuos de cada proteína. Esta tarea adopta la precisión como métrica y espera que los modelos discriminen la posición absoluta del aminoácido dentro de toda la secuencia de proteínas. Calculamos la distribución de las longitudes de las secuencias de proteínas en la figura complementaria 1.

a Construcción del gráfico de residuos de proteínas. Aquí dibujamos gráficos en 2D para una mejor visualización, pero estudiamos gráficos en 3D para GGNN. b Dos tareas de recuperación de secuencia. El primero requiere que los GGNN predigan el índice de posición absoluta para cada residuo en la secuencia de proteínas. El segundo tiene como objetivo pronosticar la distancia mínima de cada aminoácido a los dos lados de la secuencia de la proteína.

Además de eso, proponemos la segunda tarea denominada estimación de posición relativa (RPE) para centrarse en la posición relativa de cada residuo. Se requieren modelos para predecir la distancia mínima del residuo a los dos lados de la proteína dada y se utiliza el error cuadrático medio (RMSE) como métrica. Esta tarea tiene como objetivo examinar la capacidad de los GGNN para distinguir a qué segmento pertenece el aminoácido (es decir, la sección central de la proteína o el final de la proteína).

Adoptamos tres arquitecturas de GGNN técnicamente distintas y ampliamente aceptadas para la verificación empírica. Para ser específico, GVP-GNN7,43 extiende capas densas estándar para operar en colecciones de vectores euclidianos, realizando razonamientos geométricos y relacionales en representaciones eficientes de macromoléculas. EGNN58 es un GNN equivariante de traslación, rotación, reflexión y permutación sin costosos armónicos esféricos. Molformer9 emplea el mecanismo de autoatención para nubes de puntos 3D al tiempo que garantiza la equivarianza SE(3).

Explotamos un pequeño subconjunto no redundante de estructuras de alta resolución del PDB. Para ser específicos, utilizamos solo estructuras de rayos X con resolución <3,0 Å y aplicamos un umbral de identidad de secuencia del 60 %. Esto da como resultado un total de 2643, 330 y 330 estructuras PDB para los conjuntos de entrenamiento, validación y prueba, respectivamente. Los detalles experimentales, el resumen de la base de datos y la descripción de estos GGNN se detallan en las Notas complementarias 1 y 2.

La Tabla 6 documenta los resultados generales, donde las métricas están etiquetadas con ↑/↓ si mayor/menor es mejor, respectivamente. Se puede encontrar que todos los GGNN no reconocen la información posicional absoluta o relativa codificada en las secuencias de proteínas con una precisión inferior al 1% y un RMSE extremadamente alto.

Este fenómeno surge de las formas convencionales de construir conectividad de gráficos, que generalmente excluyen la información secuencial. Para ser específicos, a diferencia de las aplicaciones comunes de GNN, como las redes de citas59, las redes sociales60 y los gráficos de conocimiento61, las moléculas no tienen bordes o adyacencia explícitamente definidos. Por un lado, los gráficos de r-ball utilizan una distancia de corte, que normalmente se establece como un hiperparámetro, para determinar las conexiones de las partículas. Pero es difícil garantizar un límite que incluya adecuadamente todas las interacciones de nodos cruciales para moléculas grandes y complicadas. Por otro lado, los gráficos FC que consideran todas las distancias por pares provocarán graves redundancias, lo que aumentará drásticamente la complejidad computacional, especialmente cuando las proteínas constan de miles de residuos. Además, los GGNN también se confunden fácilmente con el ruido excesivo, lo que provoca un rendimiento insatisfactorio. Como remedio, KNN se convierte en una opción más popular para establecer conectividad gráfica para proteínas34,62,63. Sin embargo, ninguno de ellos tiene en cuenta la información secuencial y requiere que los GGNN aprendan este orden secuencial original durante el entrenamiento.

La falta de información secuencial puede generar varios problemas. Para empezar, los residuos desconocen sus posiciones relativas en las proteínas. Por ejemplo, dos residuos pueden estar cerca en el espacio 3D pero distantes en la secuencia, lo que puede inducir a error a los modelos a la hora de encontrar la cadena principal correcta. En segundo lugar, según las características del mecanismo MP, se espera que dos residuos en una proteína con la misma vecindad compartan representaciones similares. Sin embargo, el papel de esos dos residuos puede estar significativamente separado64 cuando están ubicados en diferentes segmentos de la proteína. Por lo tanto, los GGNN pueden ser incapaces de diferenciar dos residuos con las mismas estructuras locales de 1 salto. Esta restricción ya ha sido distinguida por varios trabajos6,65, pero ninguno de ellos realiza una investigación estricta y exhaustiva. Es cierto que el orden secuencial puede ser necesario sólo para determinadas tareas. Pero este experimento de juguete indica claramente que el conocimiento monopolizado por las secuencias de aminoácidos puede perderse si los GGNN solo aprenden de las estructuras de las proteínas.

Como se mencionó anteriormente, el aprendizaje sobre estructuras 3D no puede beneficiarse directamente de grandes cantidades de datos secuenciales. Posteriormente, los tamaños de los modelos de GGNN son limitados o, en cambio, puede producirse un sobreajuste66. Por el contrario, al comparar el número de secuencias de proteínas en la base de datos UniProt67 con el número de estructuras conocidas en el PDB, hay más de 1700 veces más secuencias que estructuras. Más importante aún, la disponibilidad de nuevos datos de secuencias de proteínas continúa superando con creces la disponibilidad de datos experimentales sobre la estructura de las proteínas, lo que solo aumenta la necesidad de herramientas precisas de modelado de proteínas.

Por lo tanto, presentamos un enfoque sencillo para ayudar a los GGNN con modelos de lenguaje de proteínas previamente entrenados. Con este fin, alimentamos secuencias de aminoácidos en esos modelos de lenguaje de proteínas, donde se adopta ESM-212 en nuestro caso, y extraemos las representaciones por residuo, denotadas como \({{{{{{{\bf{h}} }}}}}}^{\prime} \in {{\mathbb{R}}}^{N\times {\psi }_{PLM}}\). Aquí ψPLM = 1280. Entonces \({{{{{{{\bf{h}}}}}}}}^{\prime}\) se puede agregar o concatenar a la característica por átomo h. Para gráficos de nivel de residuos, \({{{{{{{\bf{h}}}}}}}}^{\prime}\) reemplaza inmediatamente la h original como características del nodo de entrada.

En particular, existe incompatibilidad entre la estructura experimental y su secuencia de aminoácidos original. Es decir, las estructuras almacenadas en los archivos PDB suelen estar incompletas y faltan algunas cadenas de residuos debido a cuestiones realistas inevitables68. Por lo tanto, no coinciden perfectamente con las secuencias correspondientes (es decir, la secuencia FASTA). Hay dos opciones para abordar este desajuste. Por un lado, podemos simplemente utilizar la secuencia fragmentaria como sustituto de la secuencia integral de aminoácidos y enviarla a los modelos de lenguaje de proteínas. Por otro lado, podemos aprovechar un algoritmo de programación dinámica proporcionado por Biopython69 para implementar la alineación de secuencias por pares y abandonar los residuos que no existen en las estructuras de PDB. Se descubre empíricamente que no existe una gran diferencia entre ellos, por lo que adoptamos el mecanismo de procesamiento anterior por simplicidad.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos de evaluación de la calidad del modelo, predicción de la interfaz proteína-proteína y predicción de la afinidad del ligando están disponibles en https://www.atom3d.ai/. Los datos del acoplamiento proteína-proteína de cuerpo rígido se pueden descargar directamente desde el repositorio oficial de Equidock https://github.com/octavian-ganea/equidock_public. Los datos de origen de las cifras se pueden encontrar en Datos complementarios.

El repositorio de código se almacena en https://github.com/smiles724/bottleneck. También está depositado en la ref. 70.

Xu, M. y col. Geodiff: un modelo de difusión geométrica para la generación de conformaciones moleculares. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2022).

Townshend, RJ y cols. Atom3d: tareas sobre moléculas en tres dimensiones. 35a Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2021).

Wu, Z. y col. Moleculenet: un referente en aprendizaje automático molecular. Química. Ciencia. 9, 513–530 (2018).

Artículo CAS PubMed Google Scholar

Lim, J. y col. Predecir la interacción fármaco-objetivo utilizando una novedosa red neuronal gráfica con representación gráfica integrada en estructura 3D. J química. inf. Modelo. 59, 3981–3988 (2019).

Artículo CAS PubMed Google Scholar

Liu, Y., Yuan, H., Cai, L. y Ji, S. Aprendizaje profundo de interacciones de alto orden para la predicción de la interfaz de proteínas. En Actas de la 26ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos, 679–687 (ACM, 2020).

Ingraham, J., Garg, V., Barzilay, R. y Jaakkola, T. Modelos generativos para el diseño de proteínas basado en gráficos. En Avances en sistemas de procesamiento de información neuronal 32 (NeurIPS, 2019).

Jing, B., Eismann, S., Suriana, P., Townshend, RJ y Dror, R. Aprendiendo de la estructura de las proteínas con perceptrones de vectores geométricos. Preimpresión de arXiv arXiv:2009.01411 (2020).

Strokach, A., Becerra, D., Corbi-Verge, C., Perez-Riba, A. y Kim, PM Diseño de proteínas rápido y flexible utilizando redes neuronales de gráficos profundos. Sistema celular. 11, 402–411 (2020).

Artículo CAS PubMed Google Scholar

Wu, F. y col. Molformer: transformador basado en motivos en gráficos moleculares heterogéneos en 3D. En Actas de la Conferencia AAAI sobre Inteligencia Artificial. vol. 37 (2023).

Atz, K., Grisoni, F. y Schneider, G. Aprendizaje profundo geométrico sobre representaciones moleculares. Nat. Mach. Intel. 3, 1023–1032 (2021).

Artículo de Google Scholar

Meier, J. y col. Los modelos de lenguaje permiten una predicción cero de los efectos de las mutaciones en la función de las proteínas. Adv. Inf. neuronal. Proceso. Sistema. 34, 29287–29303 (2021).

Google Académico

Lin, Z. y col. Predicción a escala evolutiva de la estructura de proteínas a nivel atómico con un modelo de lenguaje. Ciencia 379, 1123-1130 (2023).

Artículo CAS PubMed Google Scholar

Rives, A. et al. La estructura y función biológicas surgen de la ampliación del aprendizaje no supervisado a 250 millones de secuencias de proteínas. Proc. Acad. Nacional. Ciencia. 118, e2016239118 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Elnaggar, A. y col. Prottrans: hacia descifrar el lenguaje del código de la vida a través del aprendizaje profundo autosupervisado y la informática de alto rendimiento. IEEE. Trans. Patrón. Anal. Mach. Intel. 44, 7112–7127 (2021).

Hsu, C. y col. Aprender el plegado inverso de millones de estructuras predichas. En actas de la 39ª Conferencia Internacional sobre Aprendizaje Automático. vol. 162, 8946–8970 (PMLR, 2022).

Boadu, F., Cao, H. y Cheng, J. Combinación de secuencias y estructuras de proteínas con transformadores y redes neuronales de gráficos equivariantes para predecir la función de las proteínas. Preimpresión en https://www.biorxiv.org/content/10.1101/2023.01.17.524477v1 (2023).

Chen, C., Chen, X., Morehead, A., Wu, T. y Cheng, J. Redes neuronales de gráficos equivalentes en 3D para la evaluación de la calidad del modelo de proteínas. Bioinformática 39, btad030 (2023).

Artículo CAS PubMed PubMed Central Google Scholar

Dunbar, J. y col. Sabdab: la base de datos de anticuerpos estructurales. Ácidos nucleicos res. 42, D1140-D1146 (2014).

Artículo CAS PubMed Google Scholar

Chandonia, J.-M., Fox, NK & Brenner, SE Alcance: clasificación de grandes estructuras macromoleculares en la clasificación estructural de bases de datos extendidas de proteínas. Ácidos nucleicos res. 47, D475–D481 (2019).

Artículo CAS PubMed Google Scholar

Velankar, S. y otros. Tamices: integración de estructura con función, taxonomía y recurso de secuencias. Ácidos nucleicos res. 41, D483–D489 (2012).

Artículo PubMed PubMed Central Google Scholar

Berman, HM y cols. El banco de datos de proteínas. Ácidos nucleicos res. 28, 235–242 (2000).

Artículo CAS PubMed PubMed Central Google Scholar

Mistry, J. y col. Pfam: la base de datos de familias de proteínas en 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Artículo CAS PubMed Google Scholar

Bairoch, A. et al. El recurso proteico universal (uniprot). Ácidos nucleicos res. 33, D154-D159 (2005).

Artículo CAS PubMed Google Scholar

Yanofsky, C., Horn, V. y Thorpe, D. Relaciones entre la estructura de las proteínas reveladas por análisis mutacional. Ciencia 146, 1593-1594 (1964).

Artículo CAS PubMed Google Scholar

Göbel, U., Sander, C., Schneider, R. & Valencia, A. Mutaciones correlacionadas y contactos de residuos en proteínas. Proteínas 18, 309–317 (1994).

Artículo PubMed Google Scholar

Cheng, J. y col. Estimación de la precisión del modelo en casp13. Proteínas 87, 1361-1377 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Kryshtafovych, A., Schwede, T., Topf, M., Fidelis, K. & Moult, J. Evaluación crítica de los métodos de predicción de la estructura de proteínas (casp) -ronda xiii. Proteínas 87, 1011-1020 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Vreven, T. y col. Actualizaciones de los puntos de referencia integrados de interacción proteína-proteína: punto de referencia de acoplamiento versión 5 y punto de referencia de afinidad versión 2. J. Mol. Biol. 427, 3031–3041 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Townshend, R., Bedi, R., Suriana, P. & Dror, R. Aprendizaje de un extremo a otro sobre la estructura de proteínas 3D para la predicción de interfaces. En Avances en sistemas de procesamiento de información neuronal 32 (NeurIPS, 2019).

Wang, R., Fang, X., Lu, Y. & Wang, S. La base de datos pdbbbind: colección de afinidades de unión para complejos proteína-ligando con estructuras tridimensionales conocidas. J. Med. Química. 47, 2977–2980 (2004).

Artículo CAS PubMed Google Scholar

Liu, Z. y col. Colección de datos vinculantes en todo PDB: estado actual de la base de datos pdbbind. Bioinformática 31, 405–412 (2015).

Artículo CAS PubMed Google Scholar

Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de alto rendimiento y estilo imperativo. En Avances en sistemas de procesamiento de información neuronal 32 (NeurIPS, 2019).

Fey, M. & Lenssen, JE Aprendizaje rápido de representación de gráficos con pytorch geométrico. En Taller de la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2019).

Ganea, O.-E. et al. Modelos independientes se (3) equivalentes para el acoplamiento rígido de proteínas de un extremo a otro. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2022).

Zhang, J. & Zhang, Y. Un nuevo potencial dependiente de la orientación de la cadena lateral derivado del estado de referencia de paseo aleatorio para la selección de pliegues de proteínas y la predicción de estructuras. Más uno 5, e15386 (2010).

Artículo PubMed PubMed Central Google Scholar

Uziela, K., Menéndez Hurtado, D., Shu, N., Wallner, B. & Elofsson, A. Proq3d: evaluaciones mejoradas de la calidad del modelo mediante aprendizaje profundo. Bioinformática 33, 1578-1580 (2017).

Artículo CAS PubMed Google Scholar

Olechnovič, K. y Venclovas, Č. Voromqa: Evaluación de la calidad de la estructura de proteínas utilizando áreas de contacto interatómico. Proteínas: estructura, función y bioinformática 85, 1131–1145 (2017).

Artículo de Google Scholar

Karasikov, M., Pagès, G. & Grudinin, S. Función de puntuación suave dependiente de la orientación para la evaluación de la calidad de las proteínas de grano grueso. Bioinformática 35, 2801–2808 (2019).

Artículo CAS PubMed Google Scholar

Pagès, G., Charmettant, B. & Grudinin, S. Evaluación de la calidad del modelo de proteínas mediante redes neuronales convolucionales orientadas en 3D. Bioinformática 35, 3313–3319 (2019).

Artículo PubMed Google Scholar

Klicpera, J., Groß, J. & Günnemann, S. Transmisión de mensajes direccionales para gráficos moleculares. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2020).

Eismann, S. y col. Redes neuronales jerárquicas con rotación equivalente para seleccionar modelos estructurales de complejos de proteínas. Proteínas 89, 493–501 (2021).

Artículo CAS PubMed Google Scholar

Aykent, S. & Xia, T. Gbpnet: aprendizaje de representaciones geométricas universales en estructuras de proteínas. En Actas de la 28.ª Conferencia ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos, 4–14 (ACM, 2022).

Jing, B., Eismann, S., Soni, PN y Dror, RO Redes neuronales de gráficos equivalentes para estructura macromolecular 3D. En preimpresión en https://arxiv.org/abs/2106.03843 (2021).

Karimi, M., Wu, D., Wang, Z. y Shen, Y. Deepaffinity: aprendizaje profundo interpretable de la afinidad compuesto-proteína a través de redes neuronales unificadas recurrentes y convolucionales. Bioinformática 35, 3329–3338 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Anderson, B., Hy, TS y Kondor, R. Cormorant: redes neuronales moleculares covariantes. En Avances en sistemas de procesamiento de información neuronal 32 (NeurIPS, 2019).

Bepler, T. y Berger, B. Aprendizaje de incrustaciones de secuencias de proteínas utilizando información de la estructura. Preimpresión en https://arxiv.org/abs/1902.08661 (2019).

Rao, R. et al. Evaluación del aprendizaje por transferencia de proteínas con cinta adhesiva. Inf. neuronal avanzada. Proceso. Sistema. 32, 9689–9701 (2019).

Gainza, P. et al. Descifrar huellas dactilares de interacción de superficies moleculares de proteínas mediante aprendizaje profundo geométrico. Nat. Métodos 17, 184–192 (2020).

Artículo CAS PubMed Google Scholar

Nguyen, T. y col. Graphdta: predicción de la afinidad de unión entre fármaco y objetivo con redes neuronales gráficas. Bioinformática 37, 1140–1147 (2021).

Artículo CAS PubMed Google Scholar

Somnath, VR, Bunne, C. y Krause, A. Aprendizaje de representación a múltiples escalas en proteínas. Adv. Inf. neuronal. Proceso. Sistema. 34, 25244–25255 (2021).

Google Académico

Saltador, J. et al. Predicción de estructura proteica de alta precisión con alfafold. Naturaleza 596, 583–589 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Baek, M. y col. Predicción precisa de estructuras e interacciones de proteínas utilizando una red neuronal de tres vías. Ciencia 373, 871–876 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Evans, R. y col. Predicción de complejos proteicos con multímero alfa. Preimpresión en https://www.biorxiv.org/content/10.1101/2021.10.04.463034v2 (2022).

Ruffolo, JA y Gray, JJ Predicción rápida y precisa de la estructura de anticuerpos a partir del aprendizaje profundo en un conjunto masivo de anticuerpos naturales. Biofísica. J. 121, 155a-156a (2022).

Artículo de Google Scholar

Wang, G. y col. Helixfold: una implementación eficiente de alphafold2 usando paddlepaddle. Preimpresión en https://arxiv.org/abs/2207.05477 (2022).

Schütt, K. y col. Schnet: una red neuronal convolucional de filtro continuo para modelar interacciones cuánticas. En Avances en sistemas de procesamiento de información neuronal 30 (NeurIPS, 2017).

Liu, Y. et al. Mensaje esférico que pasa por gráficos moleculares 3d. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2021).

Satorras, VG, Hoogeboom, E. & Welling, M. E (n) redes neuronales de gráficos equivariantes. En Conferencia internacional sobre aprendizaje automático, 9323–9332 (PMLR, 2021).

Sen, P. y col. Clasificación colectiva en datos de red. Revista AI. 29, 93–93 (2008).

Google Académico

Hamilton, W., Ying, Z. y Leskovec, J. Aprendizaje de representación inductiva en gráficos grandes. En Avances en sistemas de procesamiento de información neuronal. 30 (NeurIPS, 2017).

Carlson, A. y col. Hacia una arquitectura para el aprendizaje de idiomas sin fin. En la Vigésima Cuarta Conferencia AAAI sobre Inteligencia Artificial (AAAI, 2010).

Fout, A., Byrd, J., Shariat, B. y Ben-Hur, A. Predicción de la interfaz de proteínas mediante redes convolucionales de gráficos. En Avances en sistemas de procesamiento de información neuronal, 30 (NeurIPS, 2017).

Stärk, H., Ganea, O., Pattanaik, L., Barzilay, R. y Jaakkola, T. Equibind: aprendizaje profundo geométrico para la predicción de la estructura de unión de fármacos. En Conferencia internacional sobre aprendizaje automático, 20503–20521 (PMLR, 2022).

Murphy, R., Srinivasan, B., Rao, V. y Ribeiro, B. Agrupación relacional para representaciones gráficas. En Conferencia internacional sobre aprendizaje automático, 4663–4673 (PMLR, 2019).

Zhang, Z. y col. Aprendizaje de la representación de proteínas mediante preentrenamiento de estructuras geométricas. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2023).

Hermosilla, P. & Ropinski, T. Aprendizaje de representación contrastiva para estructuras de proteínas tridimensionales. Preimpresión en https://arxiv.org/abs/2205.15675 (2022).

Consorcio, U. Uniprot: un centro de información sobre proteínas. Ácidos nucleicos res. 43, D204–D212 (2015).

Artículo de Google Scholar

Djinovic-Carugo, K. & Carugo, O. Faltan cadenas de residuos en estructuras cristalinas de proteínas. Trastorno intrínseco. Proteínas 3, e1095697 (2015).

Artículo PubMed PubMed Central Google Scholar

Cock, PJ y cols. Biopython: herramientas Python disponibles gratuitamente para biología molecular computacional y bioinformática. Bioinformática 25, 1422-1423 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Wu, F. Código del artículo 'Integración de modelos de lenguaje de proteínas previamente entrenados en redes geométricas de aprendizaje profundo'. Zenodo https://doi.org/10.5281/zenodo.8022149 (2023).

Descargar referencias

Este trabajo cuenta con el apoyo parcial del Instituto de Investigación de la Industria de la IA de la Universidad de Tsinghua y Molecule Mind.

Laboratorio de Investigación e Innovación en IA, Universidad Westlake, 310030, Hangzhou, China

Fang Wu, Lirong Wu y Stan Z. Li

Departamento de Ciencias de la Computación, Universidad de Yale, New Haven, CT, 06511, EE. UU.

Dragomir Radev

Instituto de Investigación de la Industria de la IA, Universidad de Tsinghua, Haidian Street, 100084, Beijing, China

Jinbo Xu

Instituto Tecnológico Toyota en Chicago, Chicago, IL, 60637, EE. UU.

Jinbo Xu

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

FW y JX dirigieron la investigación. FW aportó ideas técnicas. FW e YT desarrollaron el método propuesto. FW, DR e YT realizaron el análisis. JX y DR proporcionaron evaluación y sugerencias. Todos los autores contribuyeron al manuscrito.

Correspondencia a Stan Z. Li.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a Jianzhao Gao, Arne Elofsson y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales: Yuedong Yang y Gene Chong.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Wu, F., Wu, L., Radev, D. et al. Integración de modelos de lenguaje de proteínas previamente entrenados en redes geométricas de aprendizaje profundo. Común Biol 6, 876 (2023). https://doi.org/10.1038/s42003-023-05133-1

Descargar cita

Recibido: 23 de marzo de 2023

Aceptado: 11 de julio de 2023

Publicado: 25 de agosto de 2023

DOI: https://doi.org/10.1038/s42003-023-05133-1

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.