banner
Maison / Blog / Multi
Blog

Multi

Mar 11, 2024Mar 11, 2024

Rapports scientifiques volume 12, Numéro d'article : 10487 (2022) Citer cet article

1174 Accès

3 citations

2 Altmétrique

Détails des métriques

Cet article a été mis à jour

Les interactions protéine-protéine (IPP) sont cruciales pour le fonctionnement des protéines, mais la prédiction des résidus dans les interfaces PPI à partir de la séquence protéique reste un problème difficile. De plus, les annotations fonctionnelles basées sur la structure, telles que les annotations d’interface PPI, sont rares : seulement pour environ un tiers de toutes les structures protéiques, des annotations d’interface PPI basées sur les résidus sont disponibles. Si nous voulons utiliser une stratégie d’apprentissage profond, nous devons surmonter le problème de la disponibilité limitée des données. Ici, nous utilisons une stratégie d'apprentissage multitâche capable de gérer les données manquantes. Nous commençons par l'architecture du modèle multitâche et l'adaptons pour gérer soigneusement les données manquantes dans la fonction de coût. Comme tâches d'apprentissage connexes, nous incluons la prédiction de la structure secondaire, de l'accessibilité des solvants et des résidus enfouis. Nos résultats montrent que la stratégie d’apprentissage multi-tâches surpasse considérablement les approches à tâche unique. De plus, seule la stratégie multitâche est capable d’apprendre efficacement sur un ensemble de données étendu avec des données de caractéristiques structurelles, sans annotations PPI supplémentaires. La configuration multitâche devient encore plus importante, si la fraction des annotations PPI devient très faible : l'apprenant multitâche formé sur seulement un huitième des annotations PPI - avec extension des données - atteint les mêmes performances que l'apprenant monotâche. sur toutes les annotations PPI. Ainsi, nous montrons que la stratégie d'apprentissage multitâche peut être bénéfique pour un petit ensemble de données d'entraînement où les propriétés fonctionnelles d'intérêt de la protéine ne sont que partiellement annotées.

Les bases de données de séquences protéiques1 continuent de croître rapidement et les informations structurelles deviennent plus facilement disponibles2. Néanmoins, les annotations fonctionnelles précises basées sur la structure des protéines, telles que les sites de liaison aux protéines3, sont encore rares et difficiles à prédire. Par conséquent, des techniques informatiques sont utilisées pour prédire plusieurs propriétés structurelles fonctionnelles des protéines en fonction de la séquence protéique. L’une de ces propriétés est l’interface d’interaction physique entre les protéines qui est cruciale pour le fonctionnement d’une protéine4. L'interaction entre les protéines est nécessaire dans de nombreux processus biologiques, tels que la réplication de l'ADN, la transcription de l'ARN, la transduction du signal, le contrôle des processus cellulaires, le transport des protéines et le métabolisme5,6,7,8,9. De plus, de nombreuses maladies peuvent être liées à la déformation de l’interface d’une protéine10,11. Prédire l’ensemble des résidus d’une protéine qui interagissent avec d’autres protéines est une tâche importante, mais toujours difficile12. De plus, les informations structurelles sur les résidus qui composent l’interface sont rares. La taille de la base de données annotée PPI ne représente qu’une petite fraction de la taille de la base de données annotée structurelle. La taille de la base de données annotée structurelle, à son tour, ne représente qu’une petite fraction de la taille de la base de données de séquences protéiques (voir Fig. 1). De plus, il existe des problèmes tels que la prédiction des interfaces épitopes (liaison anticorps), pour lesquels encore moins de données étiquetées sont disponibles13. Pour entraîner efficacement les réseaux de neurones profonds pour la prédiction de l'interface PPI et d'autres tâches peu disponibles en annotations, nous devons surmonter le problème de la taille limitée de l'ensemble de données d'entraînement.

Comparaison du nombre d'entrées disponibles dans les bases de données sur la séquence protéique, la structure protéique et les annotations fonctionnelles spécifiques basées sur une structure : interface d'interaction protéine-protéine (IPP). Ces résultats sont respectivement basés sur les entrées protéiques disponibles dans la base de données UniProtKB/TrEMBL, les entrées protéiques disponibles dans la Protein Data Bank (PDB) et les entrées protéiques avec annotations d'interface PPI. Notez que l’axe des y est logarithmique.

En raison des succès de l’apprentissage profond dans des domaines tels que le traitement du langage naturel, les approches d’apprentissage profond sont de plus en plus utilisées et ont montré de grands succès pour la prédiction des caractéristiques structurelles des protéines14,15,16,17. Dans l’apprentissage profond, plusieurs couches connectées, ainsi que leurs paramètres, prédisent la sortie des caractéristiques d’entrée correspondantes18. Des approches et des modèles tels que les réseaux de neurones convolutifs (CNN), les réseaux de neurones résiduels (ResNet), les réseaux de neurones récurrents (RNN), les réseaux de mémoire à long terme (LSTM), les transformateurs et les apprenants multitâches apparaissent dans les méthodes récentes de prédiction de structure15,16. ,19,20,21,22. Hanson et al.16 ont utilisé, entre autres, des ResNets ultra-profonds dans le modèle SPOT-1D, capables de capturer des interactions non locales entre des résidus proches uniquement dans la structure protéique et non dans la séquence protéique16. Heffernan et al.21 ont utilisé des RNN bidirectionnels LSTM et ont montré que cette méthode est utile pour capturer les interactions à longue portée, en particulier pour les résidus comportant un grand nombre de contacts à longue portée. Nous avons récemment comparé l'utilisation de différentes architectures de réseaux neuronaux pour la prédiction des interfaces protéiques23. De plus, les transformateurs ont été utilisés avec succès dans le langage des protéines24,25. Dans les transformateurs, les informations tirées des données générales du domaine, telles que les séquences protéiques, sont transférées vers des données spécifiques au domaine, telles que la prédiction de la structure secondaire. Une autre stratégie dans laquelle l'information est transférée est l'apprentissage multitâche.