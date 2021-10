Vous recherchez désespérément ce vieil article qui vous expliquait comment graver votre copie de Matrix.DiVX.XX.Torrent.Illegal dans la meilleure qualité ? Ou peut-être êtes-vous curieux de savoir comment a été reçu le premier Metal Gear sur PlayStation ? Retro Magazine Search est fait pour vous.

Si vous avez plus de 20 ans et que vous êtes ferventes lectrices ou lecteurs de Numerama, il y a de fortes chances pour que vous ayez vécu vos premiers émois informatiques et vidéoludiques à travers la presse papier. Au tournant des années 2000, l’informatique et les jeux vidéo se démocratisent dans les foyers français et la presse saute sur le sujet. À l’époque, il n’était pas rare de trouver des couvertures qui promettaient de vous apprendre à « [Exploiter] votre box ADSL à 100 % » ou de tout vous dire sur Age of Empire (le 2, pas le 4).

Aujourd’hui, la presse informatique a largement migré sur le web, mais toutes ces belles pages d’astuces, de reportages et de tests sont préservées sur le site Abandonware-magazines.org, « le site des anciennes revues informatiques ». Depuis 2002, le site recense des centaines de revues et des milliers de numéros de magazines numérisés. Une véritable madeleine de Proust pour tous celles et ceux qui ont grandi avec Joystick ou l’Ordinateur Individuel.

Apprenez à graver des DivX depuis l’année 2004

Construisant sur cette base de données déjà belle, Marc-Aurélien Chardine, professeur de Physique-Chimie et NSI (Numérique et sciences informatiques) en lycée, a mis en ligne Retro Magazine Search. Ce moteur de recherche permet de retrouver de vieux articles parus dans d’anciennes revues papier. Il suffit de taper n’importe quel terme, ayant à voir avec l’informatique ou le jeu vidéo, pour voir remonter des scans de magazines parlant du sujet.

Vous voulez savoir comment le tout premier Crash Bandicoot a été reçu en 1996 ? Pas de problème, le numéro de Consoles + paru en 1996 vous dira tout en page 5. Un portrait de Steve Wozniak, le co-créateur d’Apple, paru en 1984 ? Ce sera dans le numéro 8 de ABC Informatique, en page 17. Vous pouvez aussi apprendre à graver des DivX grâce à au Numéro 1 de Vous et Votre Mac, paru en décembre 2004.

Le moteur de recherche se permet d’être si précis, car il effectue une recherche en « texte intégral », c’est-à-dire qu’il balaie le contenu des pages scannées, et pas seulement leurs titres. Cela est rendu possible grâce à un énorme travail de reconnaissance de caractère effectué par Marc-Aurélien Chardine.

600 000 pages scannées

« Avec mes élèves de Terminale NSI, on avait réalisé un moteur de recherche sur le magazine Joystick pour travailler sur les algorithmes de recherche textuelle. J’ai ensuite poussé le projet plus loin pour pouvoir faire émerger des articles de presse sur l’histoire de l’informatique ou des notions du cours. Ensuite, l’effort était faible pour intégrer tous les magazines, donc je l’ai fait », explique simplement Marc-Aurélien Chardine, interrogé par Numerama.

En tout, il aura fallu faire tourner une machine pendant 2 mois pour scanner les 600 000 et quelques pages qui constituent aujourd’hui la base de données. Chaque image est passée au travers d’un algorithme de reconnaissance de caractère pour extraire le texte et le lier à la page adaptée. « J’utilise Tesseract depuis un script Python pour faire l’OCRisation. Sur du texte dactylographié, si l’image n’est pas floue, on a vraiment une bonne précision et peu d’erreurs », détaille le professeur de Physique-Chimie.

« Apprendre à automatiser les tâches fastidieuses »

Effectuée sur un ordinateur que Marc-Aurélien Chardine décrit comme « une machine de guerre, mais de 2012 », cette opération a donné naissance à une base de données de près de 2 Go. Le volume peut sembler minime vu comme ça, mais sur un fichier de texte brut, 2 Go représente une quantité considérable de données. « Je ne fais rien à la main, tout est fait par des algorithmes. Il faudrait une vie entière pour le faire à la main », ajoute Marc-Aurélien Chardine, avant de préciser : « c’est d’ailleurs ce qu’on enseigne en cours d’informatique au lycée, apprendre à automatiser des tâches fastidieuses. »

ll faudrait une vie entière pour le faire à la main.

Sur la journée du 27 octobre 2021, ce sont déjà 5 000 recherches qui ont été effectuées sur le site, preuve de sa popularité. « Il n’y a pas mal de gens pour lesquels un Atari 2600 (ou autre en fonction de sa génération) est une madeleine de Proust », conclut l’homme derrière le projet. Si vous voulez vous faire un shoot de nostalgie numérique, vous savez où aller.

