L’IA DeepMind de Google prédit la structure 3D de presque toutes les protéines connues de la science

Ce n’est qu’en 1957 que les scientifiques ont eu un accès privilégié à la troisième dimension moléculaire.

Après 22 ans d’expériences exténuantes, John Kendrew de l’Université de Cambridge a enfin découvert la structure 3D d’une protéine. C’était un schéma tordu de myoglobine, la chaîne filamenteuse de 154 acides aminés qui aide à oxygéner nos muscles. Aussi révolutionnaire que soit cette découverte, Kendrew n’a pas tout à fait ouvert les vannes de l’architecture des protéines. Moins d’une douzaine d’autres seraient identifiées au cours de la prochaine décennie.

Avance rapide jusqu’à aujourd’hui, 65 ans après cette percée gagnante du prix Nobel.

Jeudi, la société sœur de Google, DeepMind, a annoncé qu’elle avait utilisé avec succès l’intelligence artificielle pour prédire les structures 3D de presque toutes les protéines cataloguées connues de la science. C’est plus de 200 millions de protéines trouvées dans les plantes, les bactéries, les animaux, les humains – presque tout ce à quoi vous pouvez penser.

“Essentiellement, vous pouvez le considérer comme l’univers entier des protéines”, a déclaré Demis Hassabis, fondateur et PDG de DeepMind, aux journalistes cette semaine.

C’est grâce à AlphaFold, le système d’IA révolutionnaire de DeepMind, qui dispose d’une base de données open source que les scientifiques du monde entier peuvent utiliser à volonté et gratuitement dans leurs recherches. Depuis le lancement officiel d’AlphaFold en juillet de l’année dernière – alors qu’il n’avait localisé que quelque 350 000 protéines 3D – le programme a fait une brèche notable dans le paysage de la recherche.

“Plus de 500 000 chercheurs et biologistes ont utilisé la base de données pour visualiser plus de 2 millions de structures”, a déclaré Hassabis. “Et ces structures prédictives ont aidé les scientifiques à faire de nouvelles découvertes brillantes.”

En avril, par exemple, des scientifiques de l’Université de Yale ont fait appel à la base de données d’AlphaFold pour les aider dans leur objectif de développer un nouveau vaccin antipaludique très efficace. Et en juillet dernier, des scientifiques de l’Université de Portsmouth ont utilisé le système pour développer des enzymes qui lutteront contre la pollution plastique à usage unique.

“Cela nous a donné un an d’avance sur ce que nous étions, sinon deux”, a déclaré au New York Times John McGeehan, directeur du Center for Enzyme Innovation de Portsmouth et chercheur à l’origine de la dernière étude.

Un diagramme en ruban de la protéine vitellogénine, avec des rubans bleus, jaunes et orange.

La structure 3D de la vitellogénine, qui compose le jaune d’œuf.

Esprit profond

Ces efforts ne sont qu’un petit échantillon de la portée ultime d’AlphaFold.

“Plus d’un millier d’articles scientifiques ont été publiés au cours de la seule année écoulée sur une grande variété de sujets de recherche utilisant des structures AlphaFold ; je n’ai jamais rien vu de tel”, a déclaré Sameer Velankar, associé de DeepMind et chef d’équipe au Laboratoire européen de biologie moléculaire. . Protein Data Bank, a déclaré dans un communiqué de presse.

Selon Hassabis, d’autres personnes ont utilisé la base de données, notamment des personnes essayant d’améliorer notre compréhension de la maladie de Parkinson, des personnes espérant protéger la santé des abeilles, et même certaines recherchant des informations précieuses sur l’évolution humaine.

“AlphaFold change déjà la façon dont nous pensons à la survie des molécules dans les archives fossiles, et je peux voir qu’il deviendra bientôt un outil fondamental pour les chercheurs travaillant non seulement en biologie évolutive, mais aussi en archéologie et dans d’autres domaines.” paléoscience “, explique Béatrice. Demarchi, professeur agrégé à l’Université de Turin qui a récemment utilisé le système dans une enquête sur une vieille controverse sur les œufs, a déclaré dans un communiqué de presse.

Dans les années à venir, DeepMind prévoit également de s’associer à des équipes de la Drugs For Neglected Diseases Initiative et de l’Organisation mondiale de la santé pour trouver des remèdes contre des maladies tropicales peu étudiées, mais omniprésentes, telles que la maladie de Chagas et la leishmaniose.

“Cela incitera de nombreux chercheurs du monde entier à réfléchir aux expériences qu’ils pourraient faire”, a déclaré aux journalistes Ewan Birney, associé de DeepMind et directeur adjoint de l’EMBL. “Et pensez à ce qui se passe dans les organismes et les systèmes qu’ils étudient.”

Serrures et clés

Alors pourquoi tant d’avancées scientifiques dépendent-elles de ce trésor de la modélisation 3D des protéines ? Expliquons-nous.

Supposons que vous essayez de fabriquer une clé qui rentre parfaitement dans une serrure. Mais vous ne pouvez pas voir la structure de cette serrure. Tout ce que vous savez, c’est que ce verrou existe, des données sur les matériaux et peut-être des informations numériques sur la taille de chaque rebord et l’emplacement de ces rebords.

Développer cette clé n’est peut-être pas impossible, mais ce serait assez difficile. Les clés doivent être précises ou elles ne fonctionneront pas. Par conséquent, avant de commencer, vous feriez probablement de votre mieux pour modéliser quelques fausses serrures différentes avec toutes les informations dont vous disposez afin de pouvoir créer votre clé.

Dans cette analogie, la serrure est une protéine et la clé est une petite molécule qui se lie à cette protéine.

Pour les scientifiques, qu’ils soient médecins essayant de fabriquer de nouveaux médicaments ou botanistes disséquant l’anatomie des plantes pour fabriquer des engrais, l’interaction entre certaines molécules et protéines est cruciale.

Dans les médicaments, par exemple, la façon spécifique dont une molécule d’un médicament se lie à une protéine peut être le point de rupture pour savoir si cela fonctionne. Cette interaction est compliquée car si les protéines ne sont que des séquences d’acides aminés, elles ne sont ni droites ni plates. Ils se plient, se plient et parfois s’enroulent autour d’eux, comme des fils d’écouteurs dans votre poche.

En fait, les plis uniques d’une protéine déterminent son fonctionnement – et même les plus petites erreurs de repliement dans le corps humain peuvent entraîner des maladies.

Mais lorsque nous revenons aux médicaments à petites molécules, il arrive parfois que des morceaux d’une protéine repliée soient empêchés de se lier à un médicament. Par exemple, ils peuvent être pliés d’une manière étrange qui les rend inaccessibles. Ce genre de choses sont des éléments d’information très importants pour les scientifiques qui essaient de faire adhérer leur molécule médicamenteuse. “Je pense qu’il est vrai que presque tous les médicaments qui sont arrivés sur le marché ces dernières années ont été conçus en partie grâce à la connaissance des structures protéiques”, a déclaré Janet Thornton, chercheuse à l’EMBL, lors de la conférence.

C’est pourquoi les chercheurs consacrent normalement une quantité incroyable de temps et d’efforts à décoder la structure 3D pliée d’une protéine avec laquelle ils travaillent, un peu comme si vous commenciez à fabriquer des clés en ajustant le moule de la serrure. . Connaître la structure exacte permet de voir beaucoup plus facilement où et comment une molécule s’attacherait à une protéine particulière, et comment cet attachement pourrait affecter le repliement de la protéine en réponse.

Mais cette poursuite n’est pas facile. Ou bon marché.

“Le coût de la résolution d’une nouvelle structure unique est de l’ordre de 100 000 dollars”, a déclaré Steve Darnell, biologiste structural et informatique de l’Université du Wisconsin et chercheur à la société de bioinformatique DNAStar, dans un communiqué.

C’est parce que la solution vient généralement de: super expériences de laboratoire compliquées.

Kendrew, par exemple, utilisait une technique appelée cristallographie aux rayons X. Fondamentalement, cette méthode vous oblige à prendre des cristaux solides de la protéine qui vous intéresse, à les placer dans un faisceau de rayons X et à observer le motif du faisceau. Ce modèle est à peu près la position de des milliers d’atomes au sein du cristal. Ce n’est qu’alors que vous pourrez utiliser le motif pour révéler la structure d’une protéine.

Il existe également la technique plus récente connue sous le nom de cryo-microscopie électronique. Elle est similaire à la cristallographie aux rayons X, sauf que l’échantillon de protéine est directement irradié avec des électrons au lieu d’un rayon X. Et bien que la résolution soit considérée comme beaucoup plus élevée que l’autre technique, elle ne peut pas pénétrer exactement partout. De plus, certains dans le domaine de la technologie ont tenté de créer numériquement des structures de repliement de protéines. Mais les premières tentatives, comme quelques tentatives dans les années 80 et 90, n’étaient pas géniales. Comme vous pouvez l’imaginer, les méthodes de laboratoire sont également fastidieuses et difficiles.

Au fil des ans, de telles barrières ont donné naissance à ce que l’on a appelé le “problème de repliement des protéines”. Les scientifiques ne savent tout simplement pas comment les protéines se replient et ont rencontré des obstacles importants pour contourner ce problème.

L’IA d’AlphaFold pourrait changer la donne.

Graphique du nombre d'espèces représentées dans la base de données AlphaFold, avec 5 grands cercles.  Dans chaque cercle se trouve un petit point qui représente la quantité précédente de protéines dans la base de données.  Les plus grands cercles sont environ 5 ordres de grandeur plus grands.

Un diagramme de DeepMind de la croissance explosive de la base de données AlphaFold, par espèce.

Esprit profond

Résoudre le “problème de pliage”

Fondamentalement, AlphaFold est formé par les ingénieurs de DeepMind pour prédire les structures des protéines sans la présence d’un laboratoire. Pas de cristaux, pas de feu d’électrons, pas d’expériences à 100 000 $.

Pour amener AlphaFold là où il est aujourd’hui, le système a d’abord été exposé à 100 000 structures de repliement de protéines connues, selon le site Web de la société. Puis, au fil du temps, il a commencé à apprendre à décoder le reste.

C’est vraiment aussi simple que cela. (Eh bien, sans compter le talent que l’IA a codé.)

“Il faut, je ne sais pas, un minimum de 20 000 $ et beaucoup de temps pour cristalliser une protéine”, a déclaré Birney. “Cela signifie que les expérimentateurs doivent faire des choix sur ce qu’ils font – AlphaFold n’a pas encore eu à faire de choix.” Cette caractéristique de la minutie d’AlphaFold est assez fascinante. Cela signifie que les scientifiques ont plus de liberté pour deviner et vérifier, suivre une intuition ou un instinct, et jeter un large filet dans leurs recherches en matière de structures protéiques. Ils n’ont pas à se soucier des coûts ou des délais.

“Les modèles ont également une erreur de prédiction”, a déclaré Jan Kosinski, collaborateur de DeepMind et modélisateur structurel à l’EMBL à Hambourg, en Allemagne. “Et la plupart du temps – dans de nombreux cas en fait – l’erreur est très petite, nous appelons donc cela une précision quasi atomique.”

En outre, l’équipe DeepMind indique également qu’elle a effectué un large éventail d’évaluations des risques pour s’assurer que l’utilisation d’AlphaFold est sûre et éthique. Les membres de l’équipe DeepMind ont également suggéré que l’IA en général peut poser des risques de biosécurité que nous n’aurions pas pensé évaluer auparavant, d’autant plus que cette technologie continue d’imprégner l’espace médical.

Mais au fur et à mesure que l’avenir se déroule, l’équipe de DeepMind affirme qu’AlphaFold s’adaptera en douceur et répondra à ces préoccupations au cas par cas. Pour l’instant, cela semble fonctionner – avec un univers de modèles protéiques qui remontent à un humble portrait de la myoglobine.

“Il y a à peine deux ans”, a déclaré Birney, “nous ne savions tout simplement pas que c’était faisable.”

Correction à 6 h 45 PT: Le nom et le titre de Janet Thornton ont été établis.

Leave a Reply

Your email address will not be published.