Science et technologie

Microsoft Excel, bug dans les gènes, attention à ses conversions

Un grand nombre d’articles scientifiques dans la recherche génétique s’accompagne de données annexes contenant des informations approfondies et détaillées sur les gènes étudiés. Les scientifiques connaissent désormais des dizaines de milliers de gènes. Il est donc nécessaire, lors d’une mise en parallèle de différents travaux, de traiter un nombre impressionnant de données. Cette tache fastidieuse est confiée le plus souvent à une application et en particulier à un logiciel de traitement de données comme Microsoft Excel.

Tableur Microsoft Excel

Les trois chercheurs (Mark Ziemann, Yotam Eren and Assam El-Osta) publie une étude démontrant une série d’erreurs communes dans plusieurs documents scientifique issus d’un traitement par Excel.

Excel, attention à la conversion automatique en date

Le problème vient d’une fonction native de l’application qui convertit automatiquement certaines entrées en d’autres formats de données. Ainsi le nom des gènes sont remplacés.

Il est par exemple expliqué que si un chercheur écrit SEPT 2 (contraction pour le nom de Septin 2), le texte est automatiquement transformé en 2-sept, une date. La même chose se produit avec l’entrée MARCH1 (Membrane-Associated Ring Finger (C3HC4)). Ils soulignent qu’outre les dates, Excel écorche aussi des noms de gènes en les transformant dans divers formats numériques.

L’erreur n’a pas été découverte avant par le simple fait que les données sont injectées dans le tableur par la fonction Copier/coller à partir de tables ou d’autres sources à l’intérieur des fichiers Excel. Des centaines ou des milliers de valeurs sont ainsi collectées en quelques secondes. Chaque ligne n’est pas écrite à la main, le travail serait bien trop long.

Ils mettent en avant que cette conversion a lieu sans que les chercheurs s’en rendent compte. La reprise des données dans de nouveaux documents aboutit à des erreurs supplémentaires, à des données invérifiables ou surtout à des calculs complétement erronés.

Il y a une solution, Google

Cette affaire a heureusement une solution afin d’éviter à l’avenir que ce problème se reproduise. Elle passe par la concurrence.

 «  À ce jour, il n’y a aucun moyen de désactiver de façon permanente la conversion automatique des dates dans MS Excel et d’autres logiciels de tableur comme LibreOffice Calc ou Apache OpenOffice Calc. Nous notons, toutefois, que le programme de feuille de calcul Google Sheets ne convertit pas les noms des gènes en date ou en numéro lorsque ces feuilles sont ouvertes avec Excel, LibreOffice Calc ou OpenOffice Calc »

Jerome G

Issu d’une formation scientifique. Aime l'innovation, la High Tech et le développement durable. Soucieux du respect de la vie privée.

3 commentaires

  1. Ces erreurs de conversion ne sont ni la faute d’Excel ni celle de LibreOffice ou OpenOffice, c’est juste le signe de l’incompétence des rédacteurs et reviewers des articles incriminés. Les méthodes pour éviter ces conversions quand elles n’ont pas lieu d’être, existent depuis longtemps (depuis toujours pour OOo/LO me semble-t-il) et sont expliquées dans le papier de 2004. Pour la plupart des utilisateurs, ces conversions automatiques sont très utiles et permettent de gagner du temps.

  2. Il existe des stages aussi pour apprendre à se servir Excel
    Ils ont pas l’air d’avoir le gène de l’informatique . 🙂

  3. C’est clair, ce n’est pas du tout un bug d’excel qui lit les quelques premières lignes de données pour savoir quel format leur appliquer. Suffit de savoir utiliser Excel correctement. Une formation des scientifiques, rédacteurs d’article et chercheurs me semble nécessaire pour qu’il n’écrivent pas n’importe quoi !!!!!!!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page