C'est la première fois qu'un génome humain, toutefois partiel, est créé artificiellement à l'aide de machine learning.

En 2016, le Human Genome Project-Write (projet de synthèse du génome humain) faisait polémique, car cette initiative vise à créer un génome humain complet, mais totalement artificiel ; une étape de l’ingénierie génétique qui provoque des questions éthiques. Dans un papier publié le 4 février 2021 dans PLOS Genetics, une autre équipe de recherche vient d’annoncer avoir réussi à créer des génomes humains artificiels, tout du moins en partie. Il s’agit d’un ADN inexistant en soi, ou en tout cas appartenant à des « humains imaginaires », puisqu’il est entièrement créé par une intelligence artificielle.

Les auteurs ont en effet mobilisé des réseaux de neurones artificiels afin d’appliquer du machine learning à des informations génétiques. Les réseaux de neurones artificiels ont été «  formés pour apprendre les distributions complexes de véritables ensembles de données génomiques », à partir de génomes humains accessibles dans des banques de données, afin qu’ils puissent ensuite, pour la première fois en génétique, « générer de nouveaux génomes artificiels de haute qualité ».

Des caractéristiques complexes proches des vrais génomes

Les auteurs assurent que les génomes produits sont réalistes : ils ne sont pas de simples reproductions des génomes issus de la base de données d’apprentissage, ils sont nouveaux. Les génomes artificiels synthétisent toutefois des aspects majeurs de la base de données source : par exemple, la fréquence allélique (taux de présence d’un allèle dans les gènes d’une population) est retranscrite dans les génomes artificiels. C’est comme si la base de données était en quelque sorte la population d’où est issu le génome — un mécanisme similaire à ce qu’il se passe dans la réalité.

Dans leur papier publié dans PLOS Genetics, les généticiens démontrent que les génomes artificiels produits avec cette technique conservent de nombreuses caractéristiques complexes présentes dans les vrais génomes. «  Pour la majeure partie de leurs propriétés, ils ne sont pas distinguables des autres génomes des banques de données biologiques que nous avons utilisées pour entraîner notre algorithme, à l’exception d’un détail : ils n’appartiennent à aucun donneur », commentent les auteurs.

Cette IA recrée la majeure partie du génome humain à partir d’une base de données d’entraînement en machine learning. // Source : Burak Yelmen

Là où le Human Genome Project-Write entend synthétiser un génome artificiel complet en 10 à 20 ans, le génome artificiel présenté par cette autre équipe dans PLOS Genetics n’a pas pu reproduire un génome complet, mais seulement une partie d’un génome. Les limitations proviennent principalement de la puissance de calcul nécessaire pour un tel processus informatique. Mais les auteurs expliquent qu’il serait possible de créer un génome complet en produisant séparément chaque partie, puis en les combinant.

Cette recherche reste à un stade préliminaire, car les « génomes artificiels » ont peut-être de nombreuses caractéristiques des véritables génomes, mais notre connaissance du fonctionnement génétique étant loin d’être complète, certaines différences peuvent encore échapper — l’analyse doit donc se poursuivre avant d’en conclure que cet ADN est véritablement de l’ADN humain artificiel à proprement parler.

Mais au fait, pourquoi ?

Si l’expérience est assez impressionnante, l’utilité concrète peut questionner, tous comme les enjeux éthiques que cela pose.

Les auteurs estiment que les génomes artificiels peuvent trouver une utilité dans la recherche biomédicale, pour laquelle les données génétiques sont une ressource précieuse, mais rarement utilisable pour des raisons de protection de la vie privée. « Cela crée un obstacle scientifique majeur pour les chercheurs. Les génomes générés par des machines, ou les génomes artificiels comme nous les appelons, peuvent nous aider à surmonter la question dans un cadre éthique sécurisé », écrivent-ils.

La recherche génétique pourrait alors s’appuyer sur des données génétiques d’humains imaginaires, car il suffit qu’un génome artificiel existe pour que l’algorithme de machine learning puisse extrapoler les caractéristiques biologiques qui découlent de cet ADN (visage, corps…). Selon ces auteurs, cela servirait donc de remplacement parfait.

Ces généticiens restent toutefois très évasifs sur les implications plus larges d’une telle réalisation en matière d’ingénierie génétique. L’ingénieur en biologie Drew Endy disait, dans le NY Times, lors de l’annonce du Human Genome Project-Write en 2016 : « Avant de se lancer dans un projet si énorme, avec des implications éthiques et théologiques si énormes, une question éthique basique a tout de même besoin d’être posée — à commencer par s’il faut, et sous quelles conditions, faire de ces technologies une réalité ».

Partager sur les réseaux sociaux

La suite en vidéo