Une entrepreneuse autrichienne, déjà à l’origine d’un scanner de documents qui a prouvé son efficacité, veut désormais permettre aux ordinateurs de comprendre les documents manuscrits.

L’usage des scanners capables d’interpréter et de retranscrire correctement des documents imprimés — livres, guides… — est aujourd’hui répandu. Mais il reste encore beaucoup de progrès à faire pour permettre aux ordinateurs et autres outils technologiques de comprendre les textes manuscrits.

C’est l’objectif poursuivi par la startup SearchInk, fondée par Sofie Quidenus, une entrepreneuse autrichienne interviewée par VentureBeat : « C’est assez fou de voir le nombre de formulaires qui sont encore utilisés aujourd’hui. On pense être au 21ème siècle mais c’est encore un gros problème. »

Après s’être attaquée à la conversion de documents papier en numérique avec le Book Scan 3.0, un scanner de livres capable de numériser 2 500 pages par heure — qui est aujourd’hui utilisé dans plus de 70 bibliothèques à travers le monde –, elle tente de maîtriser l’écriture manuscrite avec une technologie intitulée HTR (pour « Handwritten text recognition », ou « reconnaissance des textes manuscrits »).

https://www.youtube.com/watch?v=VaB6p52N0VI

La lettre « s » fait de la résistance

Sofie Quidenus veut aller bien au-delà d’une simple recherche de mots dans un document : « L’idée n’est pas seulement de lire le texte et d’y détecter des schémas optiques, mais bien qu’ils puissent être lus par la machine pour qu’elle les comprenne comme une personne le ferait. »

Son expérience avec le Book Scan 3.0 lui a notamment prouvé que la lettre « s » restait l’une des plus compliquées à interpréter à cause de ses nombreuses variantes, selon qu’elle est rédigée par un gaucher ou un droitier, par un homme ou par une femme, ou encore en fonction de l’ancienneté du document…

SearchInk, basé à Berlin, fait appel aux dons et aux ingénieurs intéressés pour l’aider à développer ce nouvel outil, déjà bien entamé. Il nécessite pour l’instant un correcteur humain qui modifie ces algorithmes naissants mais compte à terme recourir au deep learning pour permettre l’autonomie du système. Il faudra donc vraisemblablement attendre encore quelques années avant que ce rêve se concrétise.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !