Microsoft Excel causait bien des soucis aux scientifiques généticiens, en renommant automatiquement des gènes humains en dates. Il a donc été nécessaire de changer la nomenclature.

Microsoft Excel cause bien des soucis aux généticiens et, pour régler le problème, ce n’est pas le logiciel qui a été mis à jour : les scientifiques ont tout bonnement renommé des gènes humains.

Il existe des milliers de gènes, dans le génome humain, et chacun d’entre eux a un double nom de code : son nom et son « symbole », ce dernier étant une abréviation. Sauf que certaines de ces abréviations sont automatiquement converties par Excel, ce qui met un véritable bazar dans les données scientifiques : or l’usage des tableurs, en génétique, est essentiel, et notamment en médecine.

Quand Septine 2 devient 2020/09/02

Les abréviations ressemblent souvent à une date. Ainsi, le gène « Membrane associated ring-CH-type finger 1 » a pour symbole MARCH-1. Excel prend alors cette abréviation pour la date 1-Mar, qu’il convertit de cette façon. Autre exemple : le gène SEPT2 (Septine 2) peut être converti en 2020/09/02. Un document scientifique Excel peut contenir jusqu’à près de 40 % d’erreurs de la sorte, et il faut à la fois que l’auteur du document corrige, ainsi que celui qui le réceptionne, puisque tout se reconvertit à nouveau.

C’est un problème qui remonte au moins à 2004 et qui touche 20 % des documents Excel au contenu génétique. Cela ne touche d’ailleurs pas qu’Excel : nous avons testé l’opération à Numerama avec d’autres tableurs, et l’erreur s’est reproduite, notamment avec SEPT2.

L’erreur arrive le plus souvent avec SEPT1 et SEPT2. // Source : Numerama/Wikimedia

Les risques sont maintenant bien connus par la communauté scientifique, mais corriger ces erreurs est un fardeau coûteux en temps et en énergie. Le HUGO Gene Nomenclature Committee (le comité qui gère les dénominations génétiques) a décidé de mettre à jour la nomenclature, en faisant légèrement évoluer les noms d’une vingtaine de gènes. Ces changements sont détaillés dans un papier publié dans Nature début août 2020.

Pour les deux gènes que l’on a déjà cités, MARCH1 s’est transformé en MARCHF1 et SEPT1 en SEPTIN1. À partir de maintenant, avec ces ajouts, plus aucun gène ne contient une suite de lettres ressemblant à un début de mois. Le logiciel de Microsoft et les autres tableurs ne devraient donc plus les convertir automatiquement, ce qui permettra aux scientifiques de souffler enfin après deux décennies d’erreurs inopinées régulières.

Partager sur les réseaux sociaux

La suite en vidéo